HyperAIHyperAI

Command Palette

Search for a command to run...

ReST rencontre ReAct : amélioration autonome pour les agents LLM à raisonnement multi-étapes

Résumé

Répondre à des questions complexes formulées en langage naturel nécessite souvent un raisonnement multi-étapes et l’intégration d’informations externes. Plusieurs systèmes ont combiné la récupération de connaissances avec un grand modèle linguistique (LLM) afin de répondre à de telles questions. Toutefois, ces systèmes sont sujets à diverses erreurs, et il n’est pas possible de les entraîner de manière end-to-end pour corriger ces défaillances, car l’interaction avec les connaissances externes est non différentiable. Pour pallier ces limites, nous définissons un agent LLM de type ReAct, capable de raisonner et d’agir sur des connaissances externes. Nous affinons ensuite cet agent grâce à une méthode inspirée du ReST, qui entraîne itérativement le modèle sur des trajectoires antérieures, en utilisant un apprentissage par renforcement à batch croissant et des retours d’IA pour assurer une amélioration continue et une auto-distillation. À partir d’un grand modèle initialisé par une instruction (prompt), et après seulement deux itérations de l’algorithme, nous parvenons à produire un petit modèle finement ajusté, qui atteint une performance comparable sur des benchmarks exigeants de réponse à des questions composites, tout en disposant de deux ordres de grandeur moins de paramètres.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
ReST rencontre ReAct : amélioration autonome pour les agents LLM à raisonnement multi-étapes | Articles | HyperAI