HyperAIHyperAI
il y a 15 jours

STaR : Initialisation du raisonnement par le raisonnement

Eric Zelikman, Yuhuai Wu, Jesse Mu, Noah D. Goodman
STaR : Initialisation du raisonnement par le raisonnement
Résumé

La génération de justifications étape par étape, appelée « chaîne de raisonnement » (chain-of-thought), améliore significativement les performances des modèles linguistiques sur des tâches complexes de raisonnement, telles que la résolution de problèmes mathématiques ou les questions de bon sens. Toutefois, l’induction de la génération de justifications par les modèles linguistiques repose actuellement soit sur la construction de grands jeux de données de justifications, soit sur une perte de précision due à une inférence à très faible nombre d’exemples (few-shot). Nous proposons une technique itérative permettant d’exploiter un petit nombre d’exemples de justifications et un grand jeu de données sans justifications, afin de faire évoluer progressivement la capacité du modèle à effectuer des raisonnements de plus en plus complexes. Cette méthode, baptisée « Self-Taught Reasoner » (STaR), repose sur une boucle simple : générer des justifications pour répondre à un grand nombre de questions, en s’appuyant sur quelques exemples de justifications ; si la réponse générée est incorrecte, réessayer de générer une justification en connaissant la réponse correcte ; finement ajuster le modèle sur l’ensemble des justifications qui ont finalement conduit à des réponses correctes ; itérer. Nous montrons que STaR améliore de manière significative les performances sur plusieurs jeux de données par rapport à un modèle finement ajusté pour prédire directement les réponses finales, et atteint des performances comparables à celles obtenues en finement ajustant un modèle linguistique d’état de l’art 30 fois plus volumineux sur le jeu de données CommensenseQA. Ainsi, STaR permet à un modèle d’améliorer ses propres capacités en apprenant à partir de ses propres raisonnements générés.

STaR : Initialisation du raisonnement par le raisonnement | Articles de recherche récents | HyperAI