HyperAIHyperAI

Command Palette

Search for a command to run...

vor 16 Tagen

Agenter Entropie-geglichener Politik-Optimierungsansatz

Agenter Entropie-geglichener Politik-Optimierungsansatz

Abstract

Kürzlich hat die agentebasierte Verstärkungslernmethode (Agentic RL) erhebliche Fortschritte bei der Anreizschaffung für mehrschrittige, langfristige Werkzeugnutzungsleistungen von Web-Agenten erzielt. Während die gängigen Algorithmen des agentebasierten RL unter Anleitung der Entropie autonom hochunsichere Werkzeugaufruf-Schritte erkunden, können übermäßige Abhängigkeiten von Entropiesignalen zusätzliche Einschränkungen verursachen und zu einem Zusammenbruch des Trainings führen. In diesem Paper untersuchen wir die durch Entropie verursachten Herausforderungen und stellen den Agentic Entropy-Balanced Policy Optimization (AEPO) vor, einen agentebasierten RL-Algorithmus, der die Entropie sowohl im Rollout- als auch im Policy-Update-Phase ausbalanciert. AEPO besteht aus zwei zentralen Komponenten: (1) einem dynamischen, entropiegebalancierten Rollout-Mechanismus, der durch eine vorab erfolgende Entropieüberwachung globalen und verzweigungsbezogenen Abtastbudget adaptiv zuweist und gleichzeitig eine Verzweigungsstrafe für aufeinanderfolgende Werkzeugaufrufe mit hoher Entropie einführt, um Überverzweigung zu verhindern; sowie (2) der Entropiegebalancierten Policy-Optimierung, die eine Stop-Gradient-Operation in den hochentropischen Clipping-Term integriert, um die Gradienten an hochentropischen Token zu erhalten und korrekt neu zu skalieren, und gleichzeitig eine entropiebewusste Vorteilsschätzung einsetzt, um das Lernen an hochunsicheren Token zu priorisieren. Ergebnisse auf 14 anspruchsvollen Datensätzen zeigen, dass AEPO konsistent 7 gängige RL-Algorithmen übertrifft. Mit lediglich 1.000 RL-Proben erreicht Qwen3-14B mit AEPO beeindruckende Ergebnisse: 47,6 % auf GAIA, 11,2 % auf Humanity’s Last Exam und 43,0 % auf WebWalker für Pass@1; 65,0 % auf GAIA, 26,0 % auf Humanity’s Last Exam und 70,0 % auf WebWalker für Pass@5. Weitere Analysen ergeben, dass AEPO die Vielfalt der Rollout-Abtastung verbessert, gleichzeitig jedoch eine stabile Policy-Entropie beibehält und somit eine skalierbare Ausbildung von Web-Agenten ermöglicht.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Agenter Entropie-geglichener Politik-Optimierungsansatz | Forschungsarbeiten | HyperAI