HyperAIHyperAI

Command Palette

Search for a command to run...

il y a un mois

Apprentissage de l'agent par expérience précoce

Kai Zhang Xiangchao Chen Bo Liu Tianci Xue Zeyi Liao et al

Apprentissage de l'agent par expérience précoce

Résumé

Un objectif à long terme des agents linguistiques est d’apprendre et de s’améliorer grâce à leur propre expérience, afin de finalement surpasser les humains dans des tâches complexes du monde réel. Toutefois, former des agents à partir de données d’expérience par apprentissage par renforcement reste difficile dans de nombreux environnements, qu’ils manquent de récompenses vérifiables (par exemple, les sites web) ou exigent des tirages longs et inefficaces sur de longues horizons (par exemple, l’utilisation d’outils en plusieurs tours). En conséquence, la plupart des agents actuels s’appuient sur une adaptation supervisée à partir de données d’experts, ce qui est difficile à mettre à l’échelle et se généralise mal. Cette limitation provient de la nature même des démonstrations d’experts : elles ne couvrent qu’un éventail étroit de scénarios et exposent l’agent à une diversité limitée de l’environnement. Nous proposons de surmonter cette limitation grâce à un paradigme intermédiaire que nous appelons « expérience précoce » : des données d’interaction générées par les propres actions de l’agent, où les états futurs résultants servent de supervision sans signal de récompense. Dans ce cadre, nous étudions deux stratégies d’utilisation de ces données : (1) une modélisation implicite du monde, qui utilise les états collectés pour ancrer la politique dans les dynamiques de l’environnement ; et (2) une auto-réflexion, où l’agent apprend à partir de ses propres actions sous-optimales afin d’améliorer sa capacité de raisonnement et de prise de décision. Nous évaluons nos approches sur huit environnements diversifiés et plusieurs familles de modèles. Nos méthodes améliorent de manière cohérente l’efficacité et la généralisation hors domaine, mettant en évidence la valeur de l’expérience précoce. En outre, dans les environnements où les récompenses sont vérifiables, nos résultats offrent des signaux prometteurs indiquant que l’expérience précoce constitue une base solide pour un apprentissage par renforcement ultérieur, positionnant ainsi ce paradigme comme un pont pratique entre l’apprentissage par imitation et les agents entièrement guidés par l’expérience.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Apprentissage de l'agent par expérience précoce | Articles de recherche | HyperAI