HyperAI超神经

Des chercheurs ont révélé que l'entraînement d'un exécuteur de code est limité par les capacités du modèle. Chen Yongchao, ancien étudiant de l'Université des Sciences et Technologies de Chine et actuel doctorant à l'Université Harvard, a travaillé avec son équipe pour entraîner un modèle initial de 3, 7 ou 14 milliards de paramètres (Qwen-3B/7B/14B) sur 144 tâches de raisonnement et de planification. Au cours de cet entraînement, le modèle pouvait librement utiliser plusieurs fois l'exécuteur de code pour aider au raisonnement, bien que la décision entre le raisonnement textuel et le calcul symbolique doive être prise de manière autonome par le modèle. L'équipe de Chen a observé que l'entraînement intensif de raisonnement textuel peut entraîner une baisse des capacités de génération de code. Cela n'est pas toujours évident sur des benchmarks spécifiques comme Leetcode, où il s'agit souvent d'optimiser et d'abstraire des problèmes concrets en code ou en calcul symbolique. De nombreux défis se posent également dans la diversité des tâches. Alors qu'il est relativement simple d'entraîner un système exécuteur de code sur une tâche spécifique, l'équipe a constaté que, face à une multitude de tâches variées, le modèle peine à développer des stratégies adaptées, parfois opposées selon les tâches. Ainsi, le seul renforcement de l'apprentissage n'est souvent pas suffisant. C'est pourquoi Chen insiste sur l'importance de la phase de supervisée fine-tuning (SFT), qui permet de couvrir une gamme plus large de tâches de manière plus adéquate. selon Chen, les systèmes de agents basés sur de grands modèles, ainsi que les systèmes d'intelligence incarnée, devront intégrer le calcul symbolique dans de nombreuses situations, notamment lors de la planification de voyages, des tâches web, et de la résolution de divers problèmes scientifiques. Même si certaines tâches n'exigent pas le calcul symbolique, elles nécessitent néanmoins l'exécution de code, par exemple pour générer des visualisations graphiques. Précédemment, l'équipe de Chen a publié des travaux à ICRA 2024 et NAACL 2025, respectivement AutoTAMP et TravelPlanner, qui utilisent des frameworks préconçus pour combiner les grands modèles avec des outils de calcul symbolique. Bien que ces approches soient efficaces, elles manquent souvent de flexibilité lorsqu'elles sont appliquées à diverses tâches, chacune nécessitant souvent des algorithmes et des cadres spécifiques. Pour pallier cette limitation, Chen a proposé pendant son internat à Microsoft Research en 2024 d'utiliser le code comme vecteur intégrant divers algorithmes, contrôleurs et planificateurs. En effet, le calcul symbolique repose sur des règles prédéfinies, comme des langages de programmation, des contrôleurs et des méthodes de recherche de plans. Les grands modèles actuels, après avoir été entraînés, possèdent naturellement une capacité de programmation. Selon Chen, si les grands modèles peuvent utiliser efficacement l'exécuteur de code et alterner entre raisonnement textuel et calcul symbolique, leur performance sera considérablement améliorée. L'équipe a identifié plusieurs limitations dans les interpréteurs de code actuels, comme celui d'OpenAI. Malgré sa puissance, le GPT-4o+ utilisé avec l'exécuteur de code continue parfois à privilégier le raisonnement textuel même lorsque l'utilisation de code serait plus efficace, générant fréquemment des codes inefficaces. Ces problèmes ont également été observés dans les modèles o1 et o3, ainsi que dans DeepSeek-R1. Ces constatations ont été publiées sous le titre "Guider les grands modèles de langage entre exécution de code et raisonnement textuel" (Steering Large Language Models between Code Execution and Textual Reasoning) lors de la Conférence Internationale sur les Représentations d'Apprentissage (ICLR) 2025. Afin de surmonter ces déficiences, l'équipe a exploré deux directions : Entraîner un modèle auxiliaire pour guider la génération du modèle principal, ce qui présente l'avantage d'une taille et d'une complexité d'entraînement réduites. Ce modèle auxiliaire, CodeSteer, améliore significativement les performances du GPT-4o en le dirigeant vers une utilisation plus efficace du calcul symbolique, surpassant souvent les performances des modèles o1 et DeepSeek-R1. Micro-ajuster un unique modèle pour qu'il puisse effectuer à la fois le raisonnement textuel et le calcul symbolique, une approche qui requiert des capacités d'adaptation plus robustes de la part du modèle de base. Dans le cadre de ce travail sur R1-Code-Interpreter, l'équipe a opté pour la seconde méthode, aboutissant à une publication intitulée "R1-Code-Interpreter : entraîner les grands modèles de langage à raisonner en code via l'apprentissage supervisé et l'apprentissage par renforcement" (R1-Code-Interpreter: Training LLMs to Reason with Code via Supervised and Reinforcement Learning) sur le site arXiv. Chen envisage d'explorer davantage comment combiner ces trois modes de raisonnement (génération directe d'answers, utilisation d'outils externes, et génération de code) dans le but d'améliorer les performances pratiques des modèles. Il cherche à valider cette approche sur des tâches concrètes, montrant ainsi la viabilité de son concept.

Recherche Chinoise : Comment Améliorer l'Utilisation des Interpréteurs de Code par les Modèles Linguistiques pour la Planification et l'Inférence

Related Links