Command Palette
Search for a command to run...
L'auto-conscience améliore les modèles de raisonnement : apprentissage par renforcement de l'alignement auto-référentiel
Yoonjeon Kim Doohyuk Jang Eunho Yang

Résumé
Des études récentes sur les modèles de raisonnement explorent la méta-conscience des modèles linguistiques, c’est-à-dire la capacité à savoir comment raisonner par soi-même. Nous soutenons que les grands modèles de raisonnement manquent de cette propriété de méta-conscience, en démontrant un fort désalignement entre les trajectoires réelles (true rollouts) et les informations méta prédites. Nous proposons que l’alignement entre la prédiction méta et les trajectoires réelles entraînera des gains significatifs en performance. Pour vérifier cette hypothèse, nous avons conçu un pipeline d’entraînement qui renforce la méta-conscience par auto-alignement (MASA), et démontré que l’amélioration de la méta-conscience se traduit directement par une meilleure précision. Contrairement aux modèles existants de raisonnement méta-cognitif, notre méthode ne nécessite pas de sources d’entraînement externes, mais exploite au contraire des signaux auto-générés pour entraîner la méta-conscience. En outre, notre approche permet un entraînement efficace grâce à deux mécanismes : i) le filtrage des prompts à variance nulle, qui sont soit triviaux, soit insolubles, et ii) l’arrêt prématuré des trajectoires longues lorsque celles-ci sont peu susceptibles de conduire à une réponse correcte. Les résultats sont prometteurs : notre stratégie permet d’obtenir des améliorations importantes en précision et en efficacité d’entraînement sur des tâches du domaine cible, tout en montrant une forte capacité de généralisation sur des benchmarks hors domaine. Plus précisément, notre méthode accélère l’entraînement de GRPO de plus de 1,28 fois tout en atteignant la même performance, réalise une amélioration de 19,3 % en précision sur AIME25, et un gain moyen de 6,2 % sur six benchmarks mathématiques. L’entraînement guidé par une conscience méta améliore significativement la généralisation hors domaine, avec une augmentation de 3,87 % sur GPQA-Diamond et un gain global de 2,08 % en précision sur 13 benchmarks couvrant des domaines logiques, scientifiques et de programmation.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.