HyperAIHyperAI

Command Palette

Search for a command to run...

il y a un mois

Recherche arborescente pour l'apprentissage par renforcement des agents LLM

Yuxiang Ji Ziyu Ma Yong Wang Guanhua Chen Xiangxiang Chu Liaoni Wu

Recherche arborescente pour l'apprentissage par renforcement des agents LLM

Résumé

Les avancées récentes en apprentissage par renforcement (RL) ont considérablement renforcé les capacités agiles des grands modèles linguistiques (LLM). Dans les tâches d'agents à long terme et à plusieurs tours, les approches existantes fondées uniquement sur des récompenses issues des résultats souffrent fréquemment du problème d'une supervision rare. Pour relever ce défi, nous proposons Tree-based Group Relative Policy Optimization (Tree-GRPO), une méthode d'apprentissage par renforcement pour agents regroupés basée sur une recherche arborescente, dans laquelle chaque nœud de l'arbre représente une étape complète d'interaction de l'agent. En partageant des préfixes communs, l'échantillonnage par recherche arborescente permet d'augmenter le nombre de tirages (rollouts) réalisables dans un budget fixe de jetons ou d'appels d'outils. De plus, nous constatons que la trajectoire structurée en arbre permet naturellement la construction de signaux de supervision étape par étape, même en n'utilisant que la récompense finale. À partir de cette observation, Tree-GRPO estime les avantages relatifs regroupés à la fois au niveau intra-arbre et inter-arbre. Par une analyse théorique, nous démontrons que l'objectif de l'optimisation politique relative regroupée au niveau intra-arbre est équivalent à celui de l'apprentissage direct par préférence étape par étape. Des expériences menées sur 11 jeux de données et 3 types de tâches de question-réponse illustrent la supériorité de la méthode de RL basée sur l'arbre par rapport à la méthode basée sur la chaîne.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Recherche arborescente pour l'apprentissage par renforcement des agents LLM | Articles de recherche | HyperAI