Étude Révèle que les Outils d'IA pour le Codage Peuvent Ralentir les Développeurs Expérimentés
Les outils de codage assisté par IA peuvent ne pas accélérer chaque développeur, selon une nouvelle étude Ces dernières années, les workflows des ingénieurs logiciels ont été transformés par l'arrivée d'outils de codage assisté par l'intelligence artificielle tels que Cursor et GitHub Copilot. Ces outils promettent d'améliorer la productivité en générant automatiquement des lignes de code, en corrigeant des erreurs et en testant des modifications. Ils sont alimentés par des modèles d'IA développés par des entreprises comme OpenAI, Google DeepMind, Anthropic et xAI, dont les performances ont considérablement évolué sur un large éventail de tests liés au génie logiciel. Néanmoins, une étude publiée jeudi par le groupe de recherche en IA à but non lucratif METR met en doute l'ampleur des gains de productivité apportés par ces outils pour les développeurs expérimentés. Pour conduire cette étude, METR a organisé un essai contrôlé randomisé impliquant 16 développeurs expérimentés contribuant régulièrement à des projets open source. Ces développeurs ont été chargés de réaliser 246 tâches réelles sur de grands dépôts de code auxquels ils contribuent fréquemment. Les chercheurs ont aléatoirement attribué environ la moitié de ces tâches comme « AI-allowed » (utilisation d'IA autorisée), permettant ainsi aux développeurs d'utiliser des outils de pointe comme Cursor Pro, tandis que l'autre moitié des tâches interdisait l'utilisation de ces outils. Avant de commencer leurs tâches, les développeurs avaient anticipé que l'utilisation des outils de codage assisté par l'IA réduirait leur temps de réalisation de 24%. Cependant, ce n'était pas le cas. Comme l'ont indiqué les chercheurs : « Surprenamment, nous constatons que l'autorisation de l'IA augmentait réellement le temps de réalisation de 19% — les développeurs étaient plus lents lorsqu'ils utilisaient des outils d'IA. » Il est important de noter que seulement 56% des développeurs participant à l'étude avaient une expérience préalable avec Cursor, le principal outil d'IA utilisé. Bien que presque tous les développeurs (94%) aient déjà utilisé des LLMs (modèles de langage massifs) web dans leurs workflows de codage, certains d'entre eux utilisaient Cursor pour la première fois. Les chercheurs ont formé les développeurs à l'utilisation de Cursor avant le début de l'étude. Malgré cette formation, les résultats de METR remettent en question les bénéfices de productivité universelle annoncés par les outils de codage assisté par l'IA pour 2025. Selon l'étude, il ne faut pas necessarily supposer que ces outils, notamment ceux appelés "vibe coders", vont immédiatement accélérer les workflows des développeurs. Les chercheurs de METR ont identifié plusieurs causes potentielles à cette diminution de la productivité : les développeurs passent beaucoup plus de temps à solliciter l'IA et à attendre ses réponses plutôt qu'à coder effectivement. De plus, l'IA éprouve souvent des difficultés dans des bases de code importantes et complexes, comme celles utilisées dans cette étude. Cependant, les auteurs de l'étude soulignent la prudence nécessaire avant de tirer des conclusions définitives. Ils affirment ne pas croire que les systèmes d'IA actuels ralentissent la majorité des développeurs. D'autres études à grande échelle ont démontré que les outils de codage assisté par l'IA accélèrent les workflows des ingénieurs logiciels. Les auteurs reconnaissent également que les progrès réalisés par l'IA ces dernières années sont importants et qu'ils ne s'attendent pas à obtenir les mêmes résultats même trois mois plus tard. METR a également observé une amélioration significative de la capacité des outils de codage assisté par l'IA à accomplir des tâches complexes à long terme ces derniers temps. Néanmoins, cette recherche offre un motif supplémentaire de scepticisme quant aux gains de productivité promis par les outils de codage assisté par l'IA. D'autres études ont montré que les outils de codage actuels d'IA peuvent introduire des erreurs et, dans certains cas, des vulnérabilités de sécurité. En conclusion, bien que l'étude de METR mette en lumière des limites importantes de l'IA dans le codage, elle ne devrait pas être interprétée comme une condamnation de ces technologies. Il convient d'examiner de manière critique et contextualisée les promesses de gains de productivité, tout en restant ouvert aux progrès continus de l'IA.