il y a 11 jours

Vers l'amélioration autonome des LLM grâce à l'imagination, la recherche et la critique

Ye Tian, Baolin Peng, Linfeng Song, Lifeng Jin, Dian Yu, Haitao Mi, Dong Yu

Résumé

Malgré les capacités impressionnantes des grands modèles linguistiques (LLM) sur diverses tâches, ils peinent encore face à des scénarios exigeant un raisonnement et une planification complexes. Des travaux récents ont proposé des techniques d’instruction avancées ainsi que la nécessité de fine-tuning à l’aide de données de haute qualité pour renforcer les capacités de raisonnement des LLM. Toutefois, ces approches sont intrinsèquement limitées par la disponibilité et la qualité des données. À cet égard, la correction autonome et l’apprentissage autonome émergent comme des solutions prometteuses, reposant sur des stratégies permettant aux LLM de raffiner leurs sorties et d’apprendre à partir de récompenses auto-évaluées. Pourtant, l’efficacité des LLM dans la révision de leurs propres réponses, notamment dans les tâches complexes de raisonnement et de planification, reste incertaine. Dans ce papier, nous introduisons AlphaLLM, un cadre pour l’amélioration autonome des LLM, qui intègre la recherche arborescente de Monte Carlo (MCTS) aux LLM afin de mettre en place une boucle d’amélioration continue, renforçant ainsi les capacités des LLM sans nécessiter d’étiquetages supplémentaires. Inspiré du succès d’AlphaGo, AlphaLLM surmonte les défis spécifiques liés à l’association de la MCTS aux LLM pour l’amélioration autonome, notamment la rareté des données, l’immensité des espaces de recherche dans les tâches linguistiques, ainsi que la subjectivité des feedbacks dans ces tâches. AlphaLLM se compose d’un composant de synthèse de prompts, d’une approche efficace de MCTS adaptée aux tâches linguistiques, et d’un trio de modèles critique pour fournir des retours précis. Nos résultats expérimentaux sur des tâches de raisonnement mathématique démontrent que AlphaLLM améliore significativement les performances des LLM sans annotations supplémentaires, révélant ainsi un réel potentiel d’amélioration autonome pour les grands modèles linguistiques.