Command Palette
Search for a command to run...
Scaling des chaînes de raisonnement assistées par le code et des instructions pour le raisonnement des modèles
Honglin Lin Qizhi Pei Xin Gao Zhuoshi Pan Yu Li Juntao Li Conghui He Lijun Wu

Résumé
La capacité de raisonnement est essentielle aux grands modèles linguistiques (LLM) pour résoudre des tâches complexes, mais atteindre un raisonnement fiable et évolutif reste un défi. Bien que la méthode d'encouragement en chaîne de raisonnement (Chain-of-Thought, CoT) soit devenue une approche courante, les méthodes existantes souffrent souvent d'une génération incontrôlée, d'une qualité insuffisante et d'une diversité limitée des chemins de raisonnement. Des travaux récents explorent l'utilisation du code pour améliorer la CoT en ancrant le raisonnement dans des étapes exécutables, mais ces approches sont généralement restreintes à des problèmes mathématiques prédéfinis, ce qui limite leur évolutivité et leur généralisation. Dans ce travail, nous proposons Caco (Code-Assisted Chain-of-ThOught), un cadre novateur qui automatisé la synthèse de données d'instruction-CoT de haute qualité, vérifiables et diverses grâce à une augmentation pilotée par le code. Contrairement aux travaux antérieurs, Caco commence par ajuster finement un générateur de CoT basé sur le code à partir de solutions mathématiques et informatiques existantes, exprimées dans un format de code unifié, puis élargit la génération de données à un grand volume de traces de raisonnement diversifiées. De façon cruciale, nous introduisons une validation automatisée par exécution de code et un filtrage basé sur des règles afin d'assurer la correction logique et la diversité structurelle, avant de reconstruire les sorties filtrées en instructions en langage naturel et en chaînes de raisonnement linguistiques, enrichissant ainsi l'adaptabilité aux tâches. Ce processus en boucle fermée permet une synthèse entièrement automatisée, évolutivement scalable, de données de raisonnement garanties exécutables. Des expériences menées sur notre jeu de données Caco-1.3M montrent que les modèles entraînés avec Caco atteignent des performances compétitives fortes sur des benchmarks de raisonnement mathématique, surpassant ainsi des bases solides existantes. Une analyse approfondie révèle que la vérification ancrée dans le code et la diversité des instructions apportées par Caco contribuent à une meilleure généralisation sur des tâches inconnues. Notre travail établit un paradigme pour construire des systèmes de raisonnement auto-suffisants et fiables, sans intervention humaine.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.