HyperAIHyperAI

Command Palette

Search for a command to run...

Vers une amélioration autonome des modèles linguistiques massifs grâce à l'imagination, la recherche et la critique

Ye Tian Baolin Peng Linfeng Song Lifeng Jin Dian Yu Haitao Mi Dong Yu

Résumé

Malgré les capacités impressionnantes des grands modèles linguistiques (LLM) sur diverses tâches, ils peinent encore face à des scénarios exigeant un raisonnement et une planification complexes. Des travaux récents ont proposé des techniques d'encodage avancées ainsi que la nécessité de fine-tuning à l'aide de données de haute qualité afin d'améliorer les capacités de raisonnement des LLM. Toutefois, ces approches sont intrinsèquement limitées par la disponibilité et la qualité des données. À cet égard, la correction autonome et l'apprentissage autonome émergent comme des solutions prometteuses, reposant sur des stratégies permettant aux LLM de raffiner leurs sorties et d'apprendre à partir de récompenses auto-évaluées. Pourtant, l'efficacité des LLM dans le raffinement de leurs propres réponses, en particulier dans les tâches complexes de raisonnement et de planification, reste sujette à caution. Dans cet article, nous introduisons AlphaLLM, un cadre pour l'amélioration autonome des LLM, qui intègre la recherche arborescente de Monte Carlo (MCTS) aux LLM afin d'établir une boucle d'amélioration itérative, renforçant ainsi les capacités des LLM sans nécessiter d'annotations supplémentaires. Inspiré du succès d'AlphaGo, AlphaLLM aborde les défis spécifiques liés à l'association de la MCTS avec les LLM pour l'amélioration autonome, notamment la rareté des données, l'immensité des espaces de recherche propres aux tâches linguistiques, ainsi que la subjectivité des retours d'information dans ces tâches. AlphaLLM se compose d'un composant de synthèse de prompts, d'une approche efficace de MCTS adaptée aux tâches linguistiques, et d'un trio de modèles critiques assurant des retours précis. Nos résultats expérimentaux sur des tâches de raisonnement mathématique démontrent que AlphaLLM améliore significativement les performances des LLM sans annotation supplémentaire, ouvrant ainsi une voie prometteuse vers l'amélioration autonome des grands modèles linguistiques.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp