ReST rencontre ReAct : amélioration autonome pour les agents LLM à raisonnement multi-étapes

Répondre à des questions complexes formulées en langage naturel nécessite souvent un raisonnement multi-étapes et l’intégration d’informations externes. Plusieurs systèmes ont combiné la récupération de connaissances avec un grand modèle linguistique (LLM) afin de répondre à de telles questions. Toutefois, ces systèmes sont sujets à diverses erreurs, et il n’est pas possible de les entraîner de manière end-to-end pour corriger ces défaillances, car l’interaction avec les connaissances externes est non différentiable. Pour pallier ces limites, nous définissons un agent LLM de type ReAct, capable de raisonner et d’agir sur des connaissances externes. Nous affinons ensuite cet agent grâce à une méthode inspirée du ReST, qui entraîne itérativement le modèle sur des trajectoires antérieures, en utilisant un apprentissage par renforcement à batch croissant et des retours d’IA pour assurer une amélioration continue et une auto-distillation. À partir d’un grand modèle initialisé par une instruction (prompt), et après seulement deux itérations de l’algorithme, nous parvenons à produire un petit modèle finement ajusté, qui atteint une performance comparable sur des benchmarks exigeants de réponse à des questions composites, tout en disposant de deux ordres de grandeur moins de paramètres.