OpenAI lève le voile sur o3, son nouveau modèle d’IA dédié au raisonnement
Avec l'annonce de son modèle o3, OpenAI a clôturé fin décembre son événement de douze jours “Shipmas” en frappant fort. Ce nouveau modèle, présenté le 20 décembre, marque une avancée majeure dans les capacités de raisonnement des intelligences artificielles.
Le modèle o3, accompagné d’une version allégée appelée o3-mini, succède au modèle o1 lancé plus tôt en 2024. Bien que ces modèles ne soient pas encore disponibles au grand public, OpenAI a déjà ouvert un accès à o3-mini pour des tests de sécurité. La version complète, quant à elle, devrait arriver à la fin janvier.
Ce modèle est conçu pour surpasser les limites actuelles des modèles d'IA traditionnels grâce à une approche innovante, appelée "raisonnement simulé", qui lui permet de réfléchir à ses réponses avant de les formuler. Une telle capacité représente une évolution significative par rapport aux modèles de langage classiques.
Des scores de référence impressionnants
OpenAI affirme qu’o3 a établi de nouveaux records sur des benchmarks majeurs. Sur ARC-AGI, un test conçu pour évaluer la capacité des IA à résoudre des tâches non spécifiquement incluses dans leur entraînement, o3 a obtenu un score de 87,5 % dans des conditions de calcul optimales. À titre de comparaison, son prédécesseur, GPT-4o, atteignait à peine 5 %.
Sur d’autres benchmarks, comme Frontier Math, qui regroupe des centaines de problèmes mathématiques complexes élaborés par des experts, o3 a résolu un quart des questions. Ce résultat surpasse largement le score maximal précédent d’environ 2 %, confirmant la supériorité du modèle en mathématiques avancées.
Le modèle s’illustre également dans le domaine de la programmation. Selon OpenAI, o3 a surclassé o1 de 22,8 % sur le benchmark SWE-Bench Verified, qui évalue la capacité des IA à identifier et corriger des bugs dans des projets de code.
Un fonctionnement basé sur le raisonnement
La principale innovation d’o3 réside dans sa capacité à effectuer un raisonnement structuré avant de produire une réponse. Grâce à une technique baptisée “chaîne de pensée privée”, le modèle peut analyser plusieurs pistes, planifier des actions, et justifier son raisonnement avant de fournir un résultat.
Pour s’adapter à différentes applications, OpenAI a introduit un paramètre ajustable qui permet de définir le temps de réflexion du modèle : bas, moyen ou élevé. Ce réglage influe directement sur la précision des réponses, bien que même avec un temps de calcul élevé, o3 ne soit pas exempt d’erreurs.
Cependant, cette méthode, bien qu’efficace, entraîne des latences supplémentaires. Les réponses d’o3 prennent généralement quelques secondes à plusieurs minutes à se générer, un compromis nécessaire pour garantir une fiabilité accrue dans des domaines complexes comme les sciences ou les mathématiques.
o3-mini : une alternative plus légère
Pour compléter son offre, OpenAI a également présenté o3-mini, une version allégée et plus rapide du modèle principal. Conçu pour des tâches spécifiques, o3-mini offre un équilibre entre performance et coût d’exécution. Bien qu’il ne soit pas aussi puissant qu’o3, il surpasse tout de même le modèle o1 dans plusieurs domaines, ce qui le rend attractif pour des cas d’utilisation nécessitant rapidité et efficacité.
Un modèle au cœur des débats sur la sécurité
L’arrivée d’o3 relance les discussions sur les risques liés aux modèles d’IA avancés. Selon OpenAI, le modèle utilise une technique appelée “alignement délibératif”, qui intègre des principes de sécurité dans son processus d’entraînement. Malgré cela, des inquiétudes persistent quant à la capacité des modèles de raisonnement à éviter les comportements inattendus, comme la tromperie ou la manipulation.
Pour cette raison, OpenAI a réservé l’accès initial d’o3 aux chercheurs en sécurité et en cybersécurité, afin de collecter des retours et affiner le modèle avant sa mise à disposition généralisée.