HyperAI
il y a 12 jours

Le Jeu de l’Imitation : la Machine d’Imitation de Turing est Généralisable en Longueur Raisonneur

Zhouqi Hua, Wenwei Zhang, Chengqi Lyu, Yuzhe Gu, Songyang Gao, Kuikun Liu, Kai Chen
Le Jeu de l’Imitation : la Machine d’Imitation de Turing est Généralisable en Longueur
  Raisonneur
Résumé

La généralisation de la longueur, c'est-à-dire la capacité à résoudre des problèmes impliquant des séquences plus longues que celles observées lors de l'entraînement, constitue un défi fondamental pour les grands modèles linguistiques basés sur les Transformers (LLM). Bien que les études existantes se soient principalement concentrées sur des approches axées sur les données pour les opérations arithmétiques et les tâches de manipulation symbolique, ces approches tendent à être spécifiques à certaines tâches avec une performance globale limitée. Pour rechercher une solution plus générale, cet article se concentre sur un cas plus large de problèmes de raisonnement qui sont calculables, c'est-à-dire des problèmes que des algorithmes peuvent résoudre, donc également par une machine de Turing. À partir de cette perspective, cet article propose l'apprentissage par imitation de la machine de Turing (TAIL) pour améliorer la capacité de généralisation de la longueur des LLM. TAIL synthétise des données en chaîne de pensée (CoT) qui imitent le processus d'exécution d'une machine de Turing par des programmes informatiques, ce qui élargit linéairement les étapes de raisonnement en états atomiques afin d'atténuer l'apprentissage par raccourcis et met en place un mécanisme explicite d'accès à la mémoire pour réduire les difficultés liées à l'accès dynamique et à longue portée aux données dans les opérations élémentaires.Pour valider la fiabilité et l'universalité de TAIL, nous avons construit un jeu de données synthétique complexe couvrant 8 classes d'algorithmes et 18 tâches. Sans recours à des techniques avancées supplémentaires, TAIL améliore significativement la capacité de généralisation de la longueur ainsi que les performances du modèle Qwen2.5-7B sur diverses tâches en utilisant uniquement des données synthétiques, surpassant ainsi les méthodes précédentes et DeepSeek-R1. Les résultats expérimentaux montrent que les concepts clés dans la machine de Turing, plutôt que les styles de pensée, sont indispensables pour TAIL afin d'atteindre une généralisation de la longueur. Grâce à cela, le modèle présente des comportements d'lecture et d'écriture cohérents avec les propriétés de la machine de Turing dans ses couches d'attention.Ce travail ouvre une direction prometteuse pour les futures recherches sur l'apprentissage du raisonnement des LLM à partir de données synthétiques.