Google déploie Gemini 2.0
Le nouveau modèle d’intelligence artificielle de Google, Gemini 2.0, marque une étape majeure dans le développement des agents autonomes, avec des capacités multimodales avancées et des applications étendues dans les produits et services du géant technologique.
Google a récemment dévoilé Gemini 2.0, son dernier modèle d’intelligence artificielle. Ce modèle succède à Gemini 1.5, mais va bien au-delà en intégrant des fonctionnalités multimodales. En plus de générer du texte, Gemini 2.0 peut désormais produire des images, des vidéos et des fichiers audio, tout en analysant ces formats pour répondre à des questions complexes. Cette innovation prépare le terrain pour une nouvelle génération d’agents intelligents, capables de travailler de manière proactive pour leurs utilisateurs.
Le premier modèle de la série, Gemini 2.0 Flash, est décrit par Google comme deux fois plus rapide que son prédécesseur, Gemini 1.5 Pro, tout en offrant une meilleure précision dans des domaines tels que le codage et l’analyse d’images. Selon Demis Hassabis, CEO de Google DeepMind, Gemini 2.0 est conçu pour être utilisé dans un large éventail de produits et constitue la base du développement d’agents autonomes, un objectif majeur pour 2025.
Vers une nouvelle ère d’agents intelligents
Google voit en Gemini 2.0 la pierre angulaire de l’ère des agents intelligents, ces logiciels autonomes capables d’effectuer des tâches complexes pour le compte des utilisateurs. Grâce à ses capacités avancées, Gemini 2.0 alimente déjà plusieurs projets expérimentaux, dont :
- Project Astra : un assistant universel capable d’interagir avec des outils tels que Google Search, Maps ou Lens, et d’accompagner les utilisateurs dans des tâches pratiques comme retrouver leurs clés ou naviguer dans une ville.
- Project Mariner : un agent qui peut naviguer sur Internet, analyser les pages web et exécuter des actions comme collecter des informations ou remplir des formulaires en ligne. Mariner agit comme une extension Chrome et est conçu pour garder l’utilisateur dans la boucle, garantissant que des décisions critiques, comme des achats, nécessitent une intervention humaine.
- Jules : un assistant pour développeurs capable de corriger des bugs ou d’ajouter des fonctionnalités dans des projets codés sur GitHub. Jules peut planifier ses actions, coder de manière autonome et soumettre des modifications pour validation.
Ces projets démontrent les applications variées de Gemini 2.0, allant des tâches quotidiennes à l’assistance spécialisée dans le développement logiciel.
Une IA conçue pour une intégration universelle
Gemini 2.0 ne se limite pas aux prototypes. Le modèle est déjà intégré dans de nombreux produits Google et le sera encore davantage dans les mois à venir. Par exemple, il enrichit les réponses générées par l’IA dans Google Search et deviendra un outil central dans les suites Google Workspace, Android Studio et d’autres services.
Pour répondre à ces multiples usages, Google a conçu Gemini 2.0 comme un modèle généraliste, capable de gérer une grande diversité de tâches sans devoir recourir à des solutions compartimentées. En parallèle, le modèle s’appuie sur des API comme Multimodal Live API, permettant aux développeurs d’intégrer des fonctionnalités audio et vidéo en temps réel dans leurs applications.
Des performances accrues et des défis à relever
En plus de ses capacités élargies, Gemini 2.0 se distingue par son efficacité énergétique et sa rapidité, des aspects essentiels pour rendre l’IA accessible à grande échelle. Toutefois, ces avancées techniques s’accompagnent de nouveaux défis. Les agents intelligents, bien qu’utiles, posent des questions de sécurité et de contrôle. Google travaille déjà sur des solutions telles que des environnements test « en bac à sable » pour limiter les risques associés à des décisions automatiques prises par des agents.
Par ailleurs, pour contrer les abus potentiels, toutes les sorties générées par Gemini 2.0, qu’il s’agisse d’images ou d’audio, sont marquées grâce à la technologie SynthID. Cette approche vise à lutter contre des problématiques comme les deepfakes, qui représentent une menace croissante dans l’écosystème numérique.
Un tournant pour l’écosystème de l’intelligence artificielle
Disponible dès aujourd’hui en version expérimentale pour certains partenaires, Gemini 2.0 sera déployé plus largement en janvier 2025, avec l’ambition de transformer la manière dont l’IA s’intègre dans nos vies et nos outils numériques. Pour Google, cette nouvelle itération constitue une étape clé dans sa vision d’un futur où les agents intelligents joueront un rôle central dans l’assistance aux individus et aux entreprises.