il y a 2 mois

Les grands modèles de langage sont des raisonneurs zéro-shot.

Takeshi Kojima; Shixiang Shane Gu; Machel Reid; Yutaka Matsuo; Yusuke Iwasawa

Résumé

Les grands modèles de langage préentraînés (LLMs) sont largement utilisés dans de nombreux sous-domaines du traitement automatique des langues naturelles (NLP) et sont généralement reconnus comme d'excellents apprenants à partir de quelques exemples avec des exemples spécifiques à la tâche. Notamment, la technique récente de l'incitation par chaîne de pensée (CoT) permettant d'éliciter un raisonnement complexe en plusieurs étapes grâce à des exemples de réponses étape par étape, a atteint des performances de pointe en arithmétique et en raisonnement symbolique, des tâches difficiles relevant du système 2 qui ne suivent pas les lois d'échelle standard pour les LLMs. Bien que ces succès soient souvent attribués à la capacité des LLMs à l'apprentissage à partir de quelques exemples, nous montrons que les LLMs sont également de bons raisonneurs zéro-shot en ajoutant simplement « Réfléchissons étape par étape » avant chaque réponse.Les résultats expérimentaux démontrent que notre approche Zero-shot-CoT, utilisant le même modèle unique de prompt, surpasse significativement les performances zéro-shot des LLMs sur une variété de tâches de raisonnement benchmarkées, y compris en arithmétique (MultiArith, GSM8K, AQUA-RAT, SVAMP), en raisonnement symbolique (Dernière Lettre, Pile ou Face) et d'autres tâches de raisonnement logique (Compréhension des Dates, Suivi d'Objets Mélangés), sans aucun exemple manuellement conçu pour l'apprentissage à partir de quelques exemples. Par exemple, avec le grand modèle InstructGPT (text-davinci-002), cette méthode augmente la précision sur MultiArith de 17,7 % à 78,7 % et sur GSM8K de 10,4 % à 40,7 %. Des améliorations similaires ont été observées avec un autre grand modèle prêt à l'emploi doté de 540 milliards de paramètres (PaLM).La polyvalence de ce seul prompt dans des tâches très diverses suggère qu'il existe encore des capacités fondamentales zéro-shot non exploitées et peu étudiées chez les LLMs. Cela indique que des capacités cognitives élevées et polyvalentes pour plusieurs tâches peuvent être extraites par un simple incitement. Nous espérons que notre travail servira non seulement de base minimale la plus solide pour les benchmarks difficiles en matière de raisonnement zéro-shot, mais soulignera également l'importance d'une exploration et d'une analyse minutieuses du vaste savoir zéro-shot caché au sein des LLMs avant la création d'ensembles de données pour le fine-tuning ou l'élaboration d'exemples pour l'apprentissage à partir de quelques exemples.