HyperAIHyperAI

Command Palette

Search for a command to run...

SkillRL : Agents évolutifs par apprentissage par renforcement augmenté par des compétences récursives

Résumé

Les agents fondés sur les grands modèles linguistiques (LLM) ont montré des résultats remarquables sur des tâches complexes, mais ils opèrent souvent de manière isolée, sans tirer parti des expériences passées. Les méthodes existantes basées sur la mémoire stockent principalement des trajectoires brutes, souvent redondantes et bruitées, ce qui empêche les agents d’extraire des motifs comportementaux de haut niveau, réutilisables et essentiels à la généralisation. Dans cet article, nous proposons SkillRL, un cadre qui comble le fossé entre les expériences brutes et l’amélioration de la politique grâce à une découverte automatique des compétences et à une évolution récursive. Notre approche introduit un mécanisme de distillation basé sur l’expérience afin de construire une bibliothèque hiérarchique de compétences, appelée SkillBank ; une stratégie d’extraction adaptative pour les heuristiques générales et spécifiques à la tâche ; ainsi qu’un mécanisme d’évolution récursive permettant à la bibliothèque de compétences de co-évoluer avec la politique de l’agent durant l’apprentissage par renforcement. Ces innovations réduisent considérablement la charge en tokens tout en améliorant l’utilité du raisonnement. Les résultats expérimentaux sur ALFWorld, WebShop et sept tâches augmentées par la recherche montrent que SkillRL atteint des performances de pointe, surpassant les meilleures méthodes de référence de plus de 15,3 % tout en maintenant une robustesse accrue face à une augmentation de la complexité des tâches. Le code est disponible à l’adresse suivante : https://...


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp