HyperAIHyperAI
il y a 15 jours

Les grands modèles linguistiques peuvent s'améliorer eux-mêmes

Jiaxin Huang, Shixiang Shane Gu, Le Hou, Yuexin Wu, Xuezhi Wang, Hongkun Yu, Jiawei Han
Les grands modèles linguistiques peuvent s'améliorer eux-mêmes
Résumé

Les grands modèles linguistiques (LLM) ont atteint des performances remarquables dans diverses tâches. Toutefois, la fine-tuning d’un LLM nécessite une supervision étendue. À l’inverse, les humains peuvent améliorer leurs capacités de raisonnement par une réflexion autonome, sans inputs externes. Dans ce travail, nous démontrons qu’un LLM est également capable d’auto-amélioration à l’aide uniquement de jeux de données non étiquetés. Nous utilisons un LLM pré-entraîné pour générer des réponses enrichies de justifications « à haute confiance » à partir de questions non étiquetées, en appliquant la technique de « Chain-of-Thought » (Chaîne de raisonnement) ainsi que la méthode de cohérence auto-contrôlée. Ces solutions auto-générées servent ensuite de sorties cibles pour le fine-tuning du modèle. Nous montrons que notre approche améliore significativement la capacité générale de raisonnement d’un LLM de 540 milliards de paramètres (passant de 74,4 % à 82,1 % sur GSM8K, de 78,2 % à 83,0 % sur DROP, de 90,0 % à 94,4 % sur OpenBookQA, et de 63,4 % à 67,9 % sur ANLI-A3), atteignant ainsi des performances au niveau de l’état de l’art, sans avoir recours à aucune étiquette de vérité terrain. Nous menons des études d’ablation et mettons en évidence que le fine-tuning axé sur le raisonnement est essentiel à l’auto-amélioration du modèle.

Les grands modèles linguistiques peuvent s'améliorer eux-mêmes | Articles de recherche récents | HyperAI