HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 17 jours

Mise à l'échelle de l'apprentissage des agents par synthèse d'expériences

Mise à l'échelle de l'apprentissage des agents par synthèse d'expériences

Résumé

Bien que l’apprentissage par renforcement (RL) puisse renforcer les agents basés sur les grands modèles linguistiques (LLM) en leur permettant une amélioration autonome grâce à l’interaction, son adoption pratique reste difficile en raison des coûts élevés des échantillonnages (rollouts), de la diversité limitée des tâches, de signaux de récompense peu fiables, ainsi que de la complexité des infrastructures, facteurs qui entravent la collecte de données d’expérience évolutives. Pour surmonter ces défis, nous introduisons DreamGym, le premier cadre unifié conçu pour synthétiser des expériences variées avec une attention particulière à l’évolutivité, afin de permettre un apprentissage par renforcement en ligne efficace pour des agents autonomes. Contrairement aux approches basées sur des échantillonnages coûteux dans des environnements réels, DreamGym extrait les dynamiques de l’environnement pour construire un modèle d’expérience fondé sur le raisonnement, qui déduit des transitions d’état cohérentes et des signaux de rétroaction par un raisonnement pas à pas, permettant ainsi la collecte évolutives d’échantillons d’agent pour le RL. Pour améliorer la stabilité et la qualité des transitions, DreamGym utilise un tampon de répétition d’expérience (experience replay buffer) initialisé à partir de données réelles hors ligne, puis constamment enrichi par de nouvelles interactions, afin de soutenir activement l’entraînement de l’agent. Pour améliorer l’acquisition de connaissances, DreamGym génère de manière adaptative de nouvelles tâches qui mettent à l’épreuve la politique actuelle de l’agent, favorisant ainsi un apprentissage en ligne par curriculum plus efficace. Des expériences menées dans divers environnements et avec différentes architectures d’agents démontrent que DreamGym améliore de manière significative l’apprentissage par renforcement, tant dans des scénarios entièrement synthétiques que dans des transferts de simulation à la réalité. Sur des tâches non préparées pour le RL, comme WebArena, DreamGym surpasse tous les modèles de référence de plus de 30 %. Dans des environnements prêts au RL mais coûteux, il atteint des performances équivalentes à celles de GRPO et PPO, en n’utilisant que des interactions synthétiques. Lors du transfert d’une politique entraînée exclusivement sur des expériences synthétiques vers un apprentissage par renforcement en environnement réel, DreamGym permet d’obtenir des gains de performance importants tout en nécessitant bien moins d’interactions dans le monde réel, offrant ainsi une stratégie d’initialisation évolutives pour le RL généraliste.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Mise à l'échelle de l'apprentissage des agents par synthèse d'expériences | Articles de recherche | HyperAI