HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 2 mois

AgentGym-RL : Formation d'agents LLM pour la prise de décision à horizon long par apprentissage par renforcement multi-tours

AgentGym-RL : Formation d'agents LLM pour la prise de décision à horizon long par apprentissage par renforcement multi-tours

Résumé

Développer des agents autonomes basés sur des modèles linguistiques à grande échelle (LLM) capables de prendre une série de décisions intelligentes afin de résoudre des tâches complexes du monde réel constitue un domaine en rapide évolution. À l’instar du développement cognitif humain, ces agents doivent acquérir connaissances et compétences grâce à l’exploration et à l’interaction avec leur environnement. Malgré les progrès réalisés, la communauté manque encore d’un cadre unifié et interactif d’apprentissage par renforcement (RL) capable d’entraîner efficacement de tels agents depuis zéro — sans recourir à un ajustement par supervision (SFT) — dans des environnements variés et réalistes. Pour combler cette lacune, nous proposons AgentGym-RL, un nouveau cadre permettant d’entraîner des agents LLM à prendre des décisions interactives sur plusieurs tours via le RL. Ce cadre repose sur une architecture modulaire et déconnectée, garantissant une grande flexibilité et une facilité d’extension. Il couvre une large gamme de scénarios du monde réel et prend en charge les algorithmes de RL les plus courants. Par ailleurs, nous introduisons ScalingInter-RL, une méthode d’entraînement conçue pour équilibrer exploration et exploitation tout en assurant une optimisation stable du RL. En phase initiale, cette approche privilégie l’exploitation en limitant le nombre d’interactions, puis progresse progressivement vers une exploration plus poussée en augmentant le horizon d’action, afin d’encourager des stratégies de résolution de problèmes diversifiées. Ainsi, l’agent développe des comportements plus variés et est moins sujet à l’effondrement sur des horizons longs. Nous menons des expériences étendues afin de valider la stabilité et l’efficacité du cadre AgentGym-RL ainsi que de la méthode ScalingInter-RL. Nos agents atteignent ou dépassent les performances des modèles commerciaux sur 27 tâches réparties dans divers environnements. Nous fournissons des insights clés et mettons à disposition, sous licence open source, l’intégralité du cadre AgentGym-RL — incluant le code et les jeux de données — afin de soutenir la communauté de recherche dans le développement de la prochaine génération d’agents intelligents.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
AgentGym-RL : Formation d'agents LLM pour la prise de décision à horizon long par apprentissage par renforcement multi-tours | Articles de recherche | HyperAI