Assistant d’IA CodeSteer Guide les Modèles Linguistiques vers le Meilleur Usage du Texte et du Code pour Résoudre des Problèmes Complexes
Un « coach » d'IA aide les modèles de langage à choisir entre le texte et le code pour résoudre des problèmes Les grands modèles de langage (LLMs) sont excellents pour utiliser une logique textuelle pour comprendre le contexte d'un document et fournir une réponse logique quant à son contenu. Cependant, ces mêmes modèles ont souvent du mal à répondre correctement même aux problèmes mathématiques les plus simples. La raison textuelle est généralement loin d'être idéale pour traiter des tâches computationnelles ou algorithmiques. Bien que certains LLMs puissent générer du code comme du Python pour gérer des requêtes symboliques, ils ne savent pas toujours quand utiliser du code ni quel type de code serait le plus approprié. Pour pallier ce problème, des chercheurs du MIT ont développé CodeSteer, un assistant intelligent qui guide un LLM vers l'alternance entre la génération de code et la logique textuelle jusqu'à ce qu'il fournisse une réponse correcte. CodeSteer, lui-même un LLM plus petit, génère automatiquement une série de prompts pour orienter itérativement un LLM plus grand. Il examine les réponses actuelles et précédentes du modèle après chaque tour et fournit des directives sur la manière dont il peut corriger ou affiner sa solution jusqu'à ce qu'il juge la réponse correcte. Les chercheurs ont constaté que cet ajout boostait l'exactitude des LLMs dans des tâches symboliques, comme multiplier des nombres, jouer à Sudoku ou empiler des blocs, de plus de 30%. Il permet également à des modèles moins sophistiqués de surpasser des modèles plus avancés en termes de compétences de raisonnement. Une avancée prometteuse pour la résolution de problèmes complexes Cette avancée pourrait améliorer les capacités de résolution de problèmes des LLMs pour des tâches complexes, où la logique textuelle seule n'est pas suffisante. Par exemple, generar des chemins pour des robots dans des environnements incertains ou planifier des expéditions dans une chaîne d'approvisionnement internationale. "Nous sommes dans une course pour développer des modèles de plus en plus performants capables de tout faire, mais nous avons adopté une approche complémentaire. Les chercheurs ont consacré des années à élaborer des technologies et des outils efficaces pour résoudre des problèmes dans de nombreux domaines. Nous souhaitons permettre aux LLMs de sélectionner les bons outils et méthodes, et de profiter de l'expertise d'autrui pour renforcer leurs propres compétences," explique Chuchu Fan, professeure adjointe en aéronautique et astronautique (AeroAstro) et chercheuse principale au MIT Laboratory for Information and Decision Systems (LIDS). Le fonctionnement de CodeSteer Lorsqu'on demande à un LLM de déterminer quel nombre est le plus grand entre 9.11 et 9.9, il utilise souvent la logique textuelle et donne une mauvaise réponse. Mais si on lui demande d'utiliser du code, il peut générer et exécuter un script Python pour comparer les deux nombres, résolvant ainsi facilement le problème. Initiéralement formés pour comprendre et prédire le langage humain, les LLMs ont tendance à répondre aux requêtes par du texte, même lorsque le code serait plus efficace. Même s'ils apprennent à générer du code par l'amélioration fine, ces modèles produisent souvent une version du code incorrecte ou peu efficiente. Au lieu de tenter de réentraîner un LLM puissant comme GPT-4 ou Claude pour améliorer ces capacités, les chercheurs du MIT ajustent finalement un LLM plus petit et léger pour guider un modèle plus large entre le texte et le code. Cette méthode de réorientation ne modifie pas le LLM plus grand, préservant ainsi ses autres capacités. "Nous avons également puisé dans l'inspiration humaine. Dans le sport, un entraîneur ne sera pas forcément meilleur que l'athlète vedette de l'équipe, mais il peut encore donner des conseils utiles pour l'aiguiller. Cette méthode de Pilotage marche pour les LLMs aussi," précise Yongchao Chen, doctoral au LIDS et co-auteur de l'étude. CodeSteer travaille en synergie avec le LLM plus grand. Il examine une requête et détermine si le texte ou le code est le plus approprié pour ce problème, et quel type de code serait le plus convenable. Ensuite, il génère un prompt pour le LLM plus grand, lui indiquant de répondre par une méthode codique ou textuelle. Le modèle plus grand suit ce prompt pour répondre à la requête et renvoie le résultat à CodeSteer, qui le réexamine. Si la réponse est incorrecte, CodeSteer continue de générer des prompts pour que le LLM essaie différentes approches, comme intégrer un algorithme de recherche ou une contrainte dans son code Python, jusqu'à obtenir une réponse correcte. "Nous avons constaté qu'assez souvent, le LLM plus grande tente d'être paresseux et utilise un code plus court et moins efficace qui ne parvient pas à effectuer le calcul symbolique correct. Nous avons conçu CodeSteer pour éviter ce phénomène," ajoute Chen. Un vérificateur symbolique évalue la complexité du code et envoie un signal à CodeSteer si le code est trop simple ou inefficace. Les chercheurs ont également intégré un vérificateur auto-réponse dans CodeSteer, qui pousse le LLM à générer du code pour calculer et vérifier la correction de la réponse. Expérimentations et résultats Lors de l'élaboration de CodeSteer, les chercheurs n'ont pas trouvé de jeux de données symboliques appropriés pour ajuster et tester le modèle, car de nombreux benchmarks existants ne signalent pas si une certaine requête pourrait être mieux résolue par du texte ou du code. Ils ont donc collecté un corpus de 37 tâches symboliques complexes, incluant la raisonnement spatial, les mathématiques, le raisonnement d'ordre et l'optimisation, et ont créé leur propre jeu de données, SymBench. Dans leurs expériences, CodeSteer a surpassé les neuf méthodes de base évaluées et a augmenté la précision moyenne de 53,3% à 86,4%. Il maintient une performance similaire même sur des tâches inédites et un large éventail de LLMs. De plus, un modèle généraliste équipé de CodeSteer peut atteindre une plus grande précision que les modèles de pointe conçus spécifiquement pour le raisonnement et la planification complexes, tout en nécessitant beaucoup moins de calcul. "Notre méthode utilise les propres capacités d'un LLM. En augmentant un LLM avec la capacité d'utiliser intelligemment le codage, nous pouvons améliorer la performance d'un modèle déjà très puissant," conclut Chen. Évaluations professionnelles Jinsung Yoon, un scientifique de recherche chez Google Cloud AI qui n'a pas participé à cette étude, souligne : "Les auteurs présentent une solution élégante à l'enjeu crucial de l'utilisation d'outils par les LLMs. Cette méthode simple mais impactante permet aux LLMs de pointe d'obtenir de significatives améliorations de performance sans avoir besoin d'un réentraînement direct." Chi Wang, une scientifique chef de projets chez Google DeepMind, qui n'a pas non plus participé à la recherche, ajoute : "Leur réussite dans l'entraînement d'un modèle plus petit et spécialisé pour guider stratégiquement des modèles plus larges et avancés est particulièrement significative. Cette collaboration intelligente entre différents agents d'IA ouvre la voie à des applications plus solides et variées dans des scénarios du monde réel complexes." Le MIT-IBM Watson AI Lab, un partenaire de recherche important, a également contribué à ce projet, mettant en évidence son potentiel à améliorer la polyvalence et l'efficacité des LLMs dans divers domaines. En bref, CodeSteer représente une importante étape vers un meilleur usage combiné du texte et du code par les LLMs, offrant des perspectives prometteuses pour des applications pratiques complexes. Les scientifiques continueront d'optimiser ce système pour un processus de réorientation encore plus rapide et efficace. Profil de l'entreprise Le Massachusetts Institute of Technology (MIT) est une institution prestigieuse connue pour ses recherches de pointe en technologie, en ingénierie et en sciences. Le MIT Laboratory for Information and Decision Systems (LIDS) est spécifiquement dédié à l’étude des systèmes complexes de prise de décision, de l'optimisation de la performance et du développement de technologies intelligentes. Ce travail est une démonstration exemplaire de l'innovation technologique et de la collaboration entre différents domaines de recherche au sein du MIT, visant à repousser les frontières de l'intelligence artificielle.