il y a un jour

Optimisation de politique renforcée agente

Guanting Dong, Hangyu Mao, Kai Ma, Licheng Bao, Yifei Chen, Zhongyuan Wang, Zhongxia Chen, Jiazhen Du, Huiyang Wang, Fuzheng Zhang, Guorui Zhou, Yutao Zhu, Ji-Rong Wen, Zhicheng Dou

Voir les détails de l'article View Code

Optimisation de politique renforcée agente

Résumé

Le renforcement à grande échelle avec récompenses vérifiables (RLVR) a démontré son efficacité dans l'exploitation du potentiel des grands modèles linguistiques (LLMs) pour les tâches de raisonnement en une seule étape. Dans les scénarios de raisonnement réalistes, les LLMs peuvent souvent utiliser des outils externes pour aider au processus de résolution des tâches. Cependant, les algorithmes de renforcement actuels ne parviennent pas à équilibrer efficacement les capacités intrinsèques des modèles à raisonner sur le long terme et leur maîtrise des interactions multi-étapes avec des outils. Pour combler cet écart, nous proposons Agentic Reinforced Policy Optimization (ARPO), un nouvel algorithme de renforcement agencé, spécifiquement conçu pour entraîner des agents basés sur des LLMs en interaction multi-étapes. À travers des expériences préliminaires, nous observons que les LLMs ont tendance à présenter un comportement très incertain, caractérisé par une augmentation de la distribution d'entropie des tokens générés, immédiatement après une interaction avec des outils externes. En nous inspirant de cette observation, ARPO intègre un mécanisme d'exploration adaptatif basé sur l'entropie, qui équilibre dynamiquement l'échantillonnage de trajectoires globales et l'échantillonnage au niveau de chaque étape, favorisant ainsi l'exploration aux étapes marquées par une forte incertitude après l'utilisation d'outils. En intégrant une estimation de l'avantage attribué, ARPO permet aux LLMs d'internaliser les différences d'avantage dans les interactions pas à pas avec des outils. Nos expériences sur 13 benchmarks exigeants dans les domaines du raisonnement computationnel, du raisonnement des connaissances et de la recherche approfondie démontrent la supériorité d'ARPO par rapport aux algorithmes de renforcement basés sur les trajectoires. Notamment, ARPO obtient des performances améliorées en utilisant uniquement la moitié du budget d'utilisation d'outils requis par les méthodes existantes, offrant ainsi une solution scalable pour aligner les agents basés sur des LLMs sur des environnements dynamiques en temps réel. Notre code et nos jeux de données sont disponibles sur https://github.com/dongguanting/ARPO.