Command Palette
Search for a command to run...
Vers une amélioration autonome des modèles linguistiques massifs grâce à l'imagination, la recherche et la critique
Vers une amélioration autonome des modèles linguistiques massifs grâce à l'imagination, la recherche et la critique
Ye Tian Baolin Peng Linfeng Song Lifeng Jin Dian Yu Haitao Mi Dong Yu
Résumé
Malgré les capacités impressionnantes des grands modèles linguistiques (LLM) sur diverses tâches, ils peinent encore face à des scénarios exigeant un raisonnement et une planification complexes. Des travaux récents ont proposé des techniques d'encodage avancées ainsi que la nécessité de fine-tuning à l'aide de données de haute qualité afin d'améliorer les capacités de raisonnement des LLM. Toutefois, ces approches sont intrinsèquement limitées par la disponibilité et la qualité des données. À cet égard, la correction autonome et l'apprentissage autonome émergent comme des solutions prometteuses, reposant sur des stratégies permettant aux LLM de raffiner leurs sorties et d'apprendre à partir de récompenses auto-évaluées. Pourtant, l'efficacité des LLM dans le raffinement de leurs propres réponses, en particulier dans les tâches complexes de raisonnement et de planification, reste sujette à caution. Dans cet article, nous introduisons AlphaLLM, un cadre pour l'amélioration autonome des LLM, qui intègre la recherche arborescente de Monte Carlo (MCTS) aux LLM afin d'établir une boucle d'amélioration itérative, renforçant ainsi les capacités des LLM sans nécessiter d'annotations supplémentaires. Inspiré du succès d'AlphaGo, AlphaLLM aborde les défis spécifiques liés à l'association de la MCTS avec les LLM pour l'amélioration autonome, notamment la rareté des données, l'immensité des espaces de recherche propres aux tâches linguistiques, ainsi que la subjectivité des retours d'information dans ces tâches. AlphaLLM se compose d'un composant de synthèse de prompts, d'une approche efficace de MCTS adaptée aux tâches linguistiques, et d'un trio de modèles critiques assurant des retours précis. Nos résultats expérimentaux sur des tâches de raisonnement mathématique démontrent que AlphaLLM améliore significativement les performances des LLM sans annotation supplémentaire, ouvrant ainsi une voie prometteuse vers l'amélioration autonome des grands modèles linguistiques.