il y a 15 jours

ReST rencontre ReAct : amélioration autonome pour les agents LLM à raisonnement multi-étapes

Renat Aksitov, Sobhan Miryoosefi, Zonglin Li, Daliang Li, Sheila Babayan, Kavya Kopparapu, Zachary Fisher, Ruiqi Guo, Sushant Prakash, Pranesh Srinivasan, Manzil Zaheer, Felix Yu, Sanjiv Kumar

Voir les détails de l'article

ReST rencontre ReAct : amélioration autonome pour les agents LLM à raisonnement multi-étapes

Résumé

Répondre à des questions complexes formulées en langage naturel nécessite souvent un raisonnement multi-étapes et l’intégration d’informations externes. Plusieurs systèmes ont combiné la récupération de connaissances avec un grand modèle linguistique (LLM) afin de répondre à de telles questions. Toutefois, ces systèmes sont sujets à diverses erreurs, et il n’est pas possible de les entraîner de manière end-to-end pour corriger ces défaillances, car l’interaction avec les connaissances externes est non différentiable. Pour pallier ces limites, nous définissons un agent LLM de type ReAct, capable de raisonner et d’agir sur des connaissances externes. Nous affinons ensuite cet agent grâce à une méthode inspirée du ReST, qui entraîne itérativement le modèle sur des trajectoires antérieures, en utilisant un apprentissage par renforcement à batch croissant et des retours d’IA pour assurer une amélioration continue et une auto-distillation. À partir d’un grand modèle initialisé par une instruction (prompt), et après seulement deux itérations de l’algorithme, nous parvenons à produire un petit modèle finement ajusté, qui atteint une performance comparable sur des benchmarks exigeants de réponse à des questions composites, tout en disposant de deux ordres de grandeur moins de paramètres.