HyperAI超神经

Des chercheurs révèlent les défis de l'intégration d'exécuteurs de code dans les modèles de grande envergure, ouvrant la voie aux intelligences artificielles capables de s'adapter aux calculs symboliques. Récemment, Chen Yongchao, ancien étudiant de l'Université des sciences et technologies de Chine et actuel doctorant à Harvard, a collaboré avec son équipe pour explorer comment les agents cognitifs peuvent fusionner des calculs symboliques avec leurs capacités d'inférence et de planification. L'étude a été menée sur la base de plusieurs versions du modèle Qwen (3B, 7B et 14B), utilisant des méthodes de fine-tuning supervisé (SFT) et d'optimisation de stratégie relative de groupe (GRPO). Ces techniques permettent au modèle de s'entraîner sur une variété de 144 tâches impliquant à la fois de l'inférence textuelle et des calculs symboliques, en lui permettant d'utiliser plusieurs exécuteurs de code pour faciliter ses raisonnements. L'équipe a découvert que l'efficacité de l'exécuteur de code est grandement influencée par les capacités initiales du modèle. Par exemple, une trop grande exposure à l'inférence textuelle peut affaiblir l'aptitude du modèle à générer du code, bien que ce déclin ne soit pas visible sur certaines normes de codage comme Leetcode. En effet, cette perte de capacité concerne principalement l'interprétation et l'abstraction des problèmes complexes en code, une compétence cruciale pour de nombreux défis pratiques. Un autre défi majeur réside dans la diversité des tâches. Entraîner un système à exécuter du code pour une tâche spécifique est relativement simple, mais la complexité augmente exponentiellement lorsque le nombre de tâches varie grandement. Les modèles ont des difficultés à formuler des stratégies adaptées à des tâches de types différents, voire opposés. Chen Yongchao explique que cela différencie la formation d'exécuteurs de code des tâches mathématiques ou de récupération d'information où la renforce learning seule suffit souvent. "Le SFT reste un élément critique de notre approche", insiste Chen. Pour maximiser l'efficacité, l'équipe explore deux voies. La première implique l'entraînement d'un modèle secondaire pour aider le modèle principal à prendre des décisions d'exécution de code. Ce modèle auxiliaire est plus petit et plus facile à entraîner, ce qui permet de repousser les limites du modèle principal. La seconde méthode consiste à fine-tuner directement un unique modèle pour qu'il maîtrise à la fois l'inférence textuelle et les calculs symboliques. Cette technique requiert un grand modèle de base doté de solides compétences, mais elle offre la promesse d'une intégration plus fluide et d'une meilleure généralisation. Initialement, lors d'un stage au Microsoft Research en 2024, Chen Yongchao a proposé d'utiliser le code comme intermédiaire pour fusionner divers algorithmes, contrôleurs et planificateurs. L'approche est basée sur l'idée que les calculs symboliques, effectués selon des règles prédéfinies, peuvent être optimisés grâce à des langages de programmation, des contrôleurs et des méthodes de recherche de planification. De plus, les grands modèles actuellement entraînés possèdent naturellement une certaine aptitude à la programmation. Ainsi, si un grand modèle pouvait intégrer l'utilisation efficace de l'exécuteur de code tout en naviguant librement entre inférence textuelle et calculs symboliques, il serait en mesure de traiter des tâches de planification et d'inférence de manière beaucoup plus efficace, sans altérer sa généralisation. Cependant, les tests menés sur l'exécuteur de code d'OpenAI (Code-Interpreter), notamment sur GPT-4o+, ont révélé des insuffisances notables. Le modèle choisissait parfois de résoudre des tâches par inférence textuelle plutôt que par code, malgré une solution clairement mieux adaptée par l'exécution de code. Même avec des améliorations dans les formulations de prompts, le code généré était souvent inutile ou sous-optimisé. Ces constats ont conduit à la publication d'un article intitulé « Steerer Large Language Models between Code Execution and Textual Reasoning » au International Conference on Learning Representations (ICLR) 2025. L'article propose des solutions pour améliorer l'intégration des exécuteurs de code dans les modèles de grande envergure, notamment en formant un modèle auxiliaire appelé CodeSteer. Ce modèle a permis à GPT-4o de tirer pleinement profit des calculs symboliques pour résoudre de nombreux problèmes de planification et d'inférence, surpassant même des modèles concurrents. Dans le cadre de leur projet actuel, l'équipe a poursuivi ses efforts en développant R1-Code-Interpreter, un modèle fine-tuned pour exceller dans à la fois l'inférence textuelle et les calculs symboliques. Les résultats, publiés sur le site arXiv sous le titre « R1-Code-Interpreter: Training LLMs to Reason with Code via Supervised and Reinforcement Learning », démontrent l'efficacité de cette approche. Chen Yongchao prévoit d'explorer des méthodes combinant les trois modes de résolution de problèmes : 1. Génération directe de réponses par inférence textuelle, 2. Utilisation d'outils externes, 3. Création d'outils personnalisés par génération de code. Il a également en vue des applications concrètes pour valider l'efficacité de ces méthodes, notamment dans des domaines tels que la planification de voyages, la gestion de tâches web et la résolution de problèmes scientifiques. Selon lui, les grands modèles futurs devraient être capables de naviguer entre ces modes pour optimiser leur performance en inférence et en planification. En résumé, l'étude de Chen Yongchao et de son équipe souligne la nécessité d'une intégration efficace des exécuteurs de code dans les grands modèles de langue. Cette avancée promet d'accroître la polyvalence et l'efficacité des systèmes d'intelligence artificielle, permettant des applications plus vastes et plus performantes dans divers domaines.

Des chercheurs chinois révèlent les limites de l'entraînement des interpréteurs de code et proposent une intégration efficace du calcul symbolique

Related Links