vor 16 Tagen

Agenter Entropie-geglichener Politik-Optimierungsansatz

Details der Forschungsarbeit anzeigen Code anzeigen

Guanting Dong Licheng Bao Zhongyuan Wang Kangzhi Zhao Xiaoxi Li Jiajie Jin Jinghan Yang Hangyu Mao Fuzheng Zhang Kun Gai

Agenter Entropie-geglichener Politik-Optimierungsansatz

Abstract

Kürzlich hat die agentebasierte Verstärkungslernmethode (Agentic RL) erhebliche Fortschritte bei der Anreizschaffung für mehrschrittige, langfristige Werkzeugnutzungsleistungen von Web-Agenten erzielt. Während die gängigen Algorithmen des agentebasierten RL unter Anleitung der Entropie autonom hochunsichere Werkzeugaufruf-Schritte erkunden, können übermäßige Abhängigkeiten von Entropiesignalen zusätzliche Einschränkungen verursachen und zu einem Zusammenbruch des Trainings führen. In diesem Paper untersuchen wir die durch Entropie verursachten Herausforderungen und stellen den Agentic Entropy-Balanced Policy Optimization (AEPO) vor, einen agentebasierten RL-Algorithmus, der die Entropie sowohl im Rollout- als auch im Policy-Update-Phase ausbalanciert. AEPO besteht aus zwei zentralen Komponenten: (1) einem dynamischen, entropiegebalancierten Rollout-Mechanismus, der durch eine vorab erfolgende Entropieüberwachung globalen und verzweigungsbezogenen Abtastbudget adaptiv zuweist und gleichzeitig eine Verzweigungsstrafe für aufeinanderfolgende Werkzeugaufrufe mit hoher Entropie einführt, um Überverzweigung zu verhindern; sowie (2) der Entropiegebalancierten Policy-Optimierung, die eine Stop-Gradient-Operation in den hochentropischen Clipping-Term integriert, um die Gradienten an hochentropischen Token zu erhalten und korrekt neu zu skalieren, und gleichzeitig eine entropiebewusste Vorteilsschätzung einsetzt, um das Lernen an hochunsicheren Token zu priorisieren. Ergebnisse auf 14 anspruchsvollen Datensätzen zeigen, dass AEPO konsistent 7 gängige RL-Algorithmen übertrifft. Mit lediglich 1.000 RL-Proben erreicht Qwen3-14B mit AEPO beeindruckende Ergebnisse: 47,6 % auf GAIA, 11,2 % auf Humanity’s Last Exam und 43,0 % auf WebWalker für Pass@1; 65,0 % auf GAIA, 26,0 % auf Humanity’s Last Exam und 70,0 % auf WebWalker für Pass@5. Weitere Analysen ergeben, dass AEPO die Vielfalt der Rollout-Abtastung verbessert, gleichzeitig jedoch eine stabile Policy-Entropie beibehält und somit eine skalierbare Ausbildung von Web-Agenten ermöglicht.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding

Sofort einsatzbereit GPUs

Beste Preise

Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Agenter Entropie-geglichener Politik-Optimierungsansatz

Guanting Dong Licheng Bao Zhongyuan Wang Kangzhi Zhao Xiaoxi Li Jiajie Jin Jinghan Yang Hangyu Mao Fuzheng Zhang Kun Gai4 more

Abstract

KI mit KI entwickeln

Hyper Newsletters

Guanting Dong Licheng Bao Zhongyuan Wang Kangzhi Zhao Xiaoxi Li Jiajie Jin Jinghan Yang Hangyu Mao Fuzheng Zhang Kun Gai