HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 16 jours

Optimisation politique à entropie équilibrée agente

Optimisation politique à entropie équilibrée agente

Résumé

Récemment, l’apprentissage par renforcement agencent (Agentic RL) a connu des progrès significatifs dans l’incitation des capacités d’utilisation d’outils à plusieurs tours et à long terme des agents web. Bien que les algorithmes d’agentic RL courants explorent de manière autonome les étapes d’appel d’outils à haute incertitude sous la direction de l’entropie, une dépendance excessive aux signaux d’entropie peut introduire des contraintes supplémentaires, entraînant une instabilité entraînant une chute de l’apprentissage. Dans cet article, nous examinons les défis liés à l’entropie et proposons un nouvel algorithme d’agentic RL, nommé Optimisation de politique équilibrée par entropie agente (AEPO), conçu pour équilibrer l’entropie tant lors de la phase de génération de trajectoires (rollout) que lors de la mise à jour de la politique. L’AEPO se compose de deux composants clés : (1) un mécanisme dynamique d’équilibrage de l’entropie lors du rollout, qui alloue de manière adaptative les budgets d’échantillonnage global et par branche grâce à un pré-monitoring de l’entropie, tout en appliquant une pénalité aux séquences consécutives d’appels d’outils à haute entropie afin de prévenir les problèmes d’over-branching ; et (2) une optimisation de politique équilibrée par entropie, qui insère une opération de stop-gradient dans le terme de clipping à haute entropie afin de préserver et de redimensionner correctement les gradients sur les tokens à haute entropie, tout en intégrant une estimation avancée de l’avantage prenant en compte l’entropie, afin de privilégier l’apprentissage sur les tokens à haute incertitude. Les résultats obtenus sur 14 jeux de données exigeants montrent que l’AEPO surpasse de manière cohérente 7 algorithmes d’RL courants. Avec seulement 1 000 échantillons d’RL, le modèle Qwen3-14B utilisant l’AEPO atteint des performances impressionnantes : 47,6 % sur GAIA, 11,2 % sur Humanity’s Last Exam, et 43,0 % sur WebWalker pour Pass@1 ; 65,0 % sur GAIA, 26,0 % sur Humanity’s Last Exam, et 70,0 % sur WebWalker pour Pass@5. Une analyse approfondie révèle que l’AEPO améliore la diversité de l’échantillonnage lors du rollout tout en maintenant une entropie de politique stable, favorisant ainsi l’entraînement évolutif des agents web.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Optimisation politique à entropie équilibrée agente | Articles de recherche | HyperAI