La course au code invisible
Les grands acteurs de l’IA s’affrontent autour de nouveaux agents capables de coder de manière autonome, sans jamais montrer une ligne de code.
La programmation assistée par IA entre dans une nouvelle phase. Après les assistants d’autocomplétion comme GitHub Copilot, une nouvelle génération d’agents ambitionne d’automatiser l’ensemble du processus de développement logiciel, de la rédaction à la correction, sans intervention humaine directe. Cette approche, souvent désignée par le terme « vibe coding », repose sur l’idée qu’un utilisateur puisse déléguer une tâche à un agent et revenir une fois celle-ci accomplie, sans jamais consulter le code source.
OpenAI vient d’y faire son entrée avec une version avancée de Codex, un système présenté comme capable de gérer des tâches complexes à partir de simples commandes en langage naturel. Il rejoint ainsi des outils comme Devin, SWE-Agent ou OpenHands, tous conçus pour s’insérer dans les environnements professionnels (Slack, Asana, Jira) et simuler le fonctionnement d’une équipe de développement pilotée à distance.
Un modèle encore immature, mais très convoité
Malgré les ambitions affichées, ces agents ne sont pas encore capables d’un travail réellement autonome. Le lancement public de Devin à la fin de 2024 a mis en évidence leurs limites : erreurs fréquentes, hallucinations d’API inexistantes, et nécessité d’une supervision humaine constante. Plusieurs dirigeants de start-up du secteur alertent d’ailleurs sur les risques d’une validation aveugle du code généré par ces systèmes, qui peut rapidement engendrer des dettes techniques difficiles à résoudre.
Les modèles les plus performants revendiquent aujourd’hui des scores élevés sur des benchmarks comme SWE-Bench, une base d’incidents tirée de GitHub. OpenAI affirme ainsi que son modèle codex-1 atteint 72,1 % de résolution des problèmes, contre 65,8 % pour OpenHands, en tête du classement vérifié. Mais ces chiffres ne traduisent pas nécessairement une capacité à remplacer les développeurs : même avec un taux de réussite de 70 %, une supervision humaine reste indispensable dans la majorité des cas.
Google mise sur l’évolution des algorithmes
De son côté, Google explore une voie complémentaire avec AlphaEvolve, un agent de codage développé par DeepMind. Ce système s’appuie sur les modèles Gemini et introduit une logique évolutive : il génère plusieurs solutions à un problème algorithmique donné, les évalue automatiquement, et affine les meilleures pour les améliorer itérativement.
Déjà utilisé en interne, AlphaEvolve a permis d’optimiser la gestion des clusters de centres de données et même de proposer une amélioration du langage matériel Verilog, utilisé pour concevoir les puces Tensor de Google. Il a également surpassé AlphaTensor, un ancien modèle spécialisé dans les multiplications matricielles, en découvrant une méthode plus efficace que celle de Strassen, utilisée depuis 1969.
Cette approche par évaluation automatique semble mieux adaptée aux problèmes complexes de calcul ou d’optimisation, mais reste encore loin d’une intégration généralisée. Le système n’est pas accessible au public, et ses performances reposent sur des ressources de calcul considérables.
Apple, Anthropic et l’approche intégrée
Apple explore aussi le champ du vibe coding via un partenariat avec Anthropic. Selon des informations rapportées par Bloomberg, la firme de Cupertino développe une nouvelle version d’Xcode intégrant Claude Sonnet, un modèle conçu par Anthropic, déjà plébiscité par les développeurs pour sa précision en génération de code.
Le projet, pour l’instant destiné à un usage interne, s’inscrit dans une stratégie plus large de renforcement des capacités d’IA générative chez Apple. L’entreprise utilise déjà ChatGPT pour ses fonctions Apple Intelligence, et envisage de proposer Gemini comme alternative. En misant sur Claude, Apple cherche à structurer un environnement fermé et sécurisé, capable d’automatiser les tâches de programmation tout en s’intégrant de manière fluide à son écosystème logiciel.
Des promesses à confirmer
L’intérêt croissant des grandes entreprises pour ces agents de programmation s’explique par l’espoir d’une réduction massive des coûts et d’un gain de productivité. Mais les limites restent nombreuses : hallucinations, manque de fiabilité, difficulté d’intégration dans les cycles de développement existants.
À court terme, ces outils pourraient jouer un rôle d’assistant technique dans des contextes bien balisés. À moyen terme, leur évolution dépendra de leur capacité à s’adapter aux réalités complexes du développement logiciel professionnel. Le véritable défi ne sera pas seulement de coder, mais de coder juste, de manière fiable, traçable et compréhensible par les équipes humaines.