Google, OpenAI : les géants de l’IA accélèrent
En début de semaine, OpenAI puis Google à l’occasion de sa conférence annuelle des développeurs ont annoncé une série d’innovations majeures. Retour sur ces annonces, et leur potentiel impact.
On attendait GPT-5, on aura eu GPT-4o. Ce mardi 13 mai, OpenAI a dévoilé GPT-4o, une version améliorée de son modèle GPT-4, qui alimente le célèbre ChatGPT. Cette mise à jour promet une vitesse accrue et des capacités améliorées en matière de texte, vision et audio, a déclaré Mira Murati, CTO d'OpenAI, lors de la présentation du modèle. GPT-4o sera disponible gratuitement pour tous les utilisateurs de ChatGPT. Dans un communiqué de presse, OpenAI a indiqué que les fonctionnalités de GPT-4o seront déployées progressivement, avec les capacités de traitement de texte et d'image disponibles dès cette semaine sur ChatGPT. Sam Altman, CEO d'OpenAI, a précisé que le modèle est « nativement multimodal », ce qui signifie qu'il peut comprendre et générer des commandes en voix, texte et images. Les développeurs auront également accès à l'API de GPT-4o, qui sera deux fois plus rapide et moitié moins chère que GPT-4 Turbo, précédent modèle de l'entreprise.
Le nouveau modèle apporte également des améliorations au mode vocal de ChatGPT, permettant à l'application de fonctionner comme un assistant vocal en temps réel, observant l'environnement et répondant aux commandes de manière plus naturelle. Cette évolution marque un pas en avant par rapport au mode vocal actuel, qui est limité à une réponse à la fois et ne fonctionne qu'avec des entrées audio.
Le timing de la présentation de GPT-4o est lui loin d’être anodin. Le lendemain, mardi 14 mai, Google tient sa conférence des développeurs, Google IO. Et la réponse de l’entreprise dirigée par Sundar Pichai est à la hauteur des attentes. Elle a en effet multiplié les annonces et les innovations autour de l’IA. Google a notamment présenté le Projet Astra, un assistant AI multimodal que l'entreprise espère voir devenir un assistant virtuel complet, capable de comprendre et d'interagir avec ce qu'il voit via la caméra de l'appareil de l'utilisateur, se souvenir de l'emplacement des objets et accomplir des tâches pour l'utilisateur. Veo, le nouveau modèle d'IA générative de Google, capable de produire des vidéos en 1080p à partir de textes, images ou vidéos, a également été annoncé à l'occasion de Google IO. Les vidéos de Veo peuvent être créées dans divers styles cinématographiques, comme des plans aériens ou des timelapses.
Google a également annoncé le déploiement cette semaine des "AI Overviews" à tous les utilisateurs américains, une fonctionnalité qui génèrent des réponses résumées à partir du web en réponse à des requêtes, semblable à ce que proposent les outils de recherche IA comme Perplexity ou Arc Search. Cette intégration de résultats générés par IA dans le "search" a entraîné une levée de boucliers notamment de la part des éditeurs web craignant une baisse de leur trafic.
Enfin, Google a introduit le modèle Gemini 1.5 Flash, aussi puissant que le Gemini 1.5 Pro (dernier opus de l'entreprise) mais optimisé pour des tâches spécifiques nécessitant des réponses rapides. Parmi les "gadgets IA" cités lors de Google IO, on pourra citer la fonctionnalité Ask Photos, qui permettra au chatbot Gemini d'explorer votre bibliothèque Google Photos et de répondre à des questions. Le CEO de Google Sundar Pichai a par exemple demandé à Gemini de retrouver son numéro de plaque d'immatriculation.
La question qui se pose pour les semaines et mois à venir sera celle du passage à la réalité de l'ensemble de ses annonces, Google ayant déjà par le passé fait des démonstrations mensongères de produits, ou annoncé des produits n'étant jamais arrivés sur le marché. Cependant, la démonstration faite par l'entreprise ce mardi et la veille par OpenAI montre que les géants de l'IA ne compte pas ralentir l'allure. Affaire à suivre.