Command Palette
Search for a command to run...
Agenter Entropie-geglichener Politik-Optimierungsansatz

Abstract
Kürzlich hat die agentebasierte Verstärkungslernmethode (Agentic RL) erhebliche Fortschritte bei der Anreizschaffung für mehrschrittige, langfristige Werkzeugnutzungsleistungen von Web-Agenten erzielt. Während die gängigen Algorithmen des agentebasierten RL unter Anleitung der Entropie autonom hochunsichere Werkzeugaufruf-Schritte erkunden, können übermäßige Abhängigkeiten von Entropiesignalen zusätzliche Einschränkungen verursachen und zu einem Zusammenbruch des Trainings führen. In diesem Paper untersuchen wir die durch Entropie verursachten Herausforderungen und stellen den Agentic Entropy-Balanced Policy Optimization (AEPO) vor, einen agentebasierten RL-Algorithmus, der die Entropie sowohl im Rollout- als auch im Policy-Update-Phase ausbalanciert. AEPO besteht aus zwei zentralen Komponenten: (1) einem dynamischen, entropiegebalancierten Rollout-Mechanismus, der durch eine vorab erfolgende Entropieüberwachung globalen und verzweigungsbezogenen Abtastbudget adaptiv zuweist und gleichzeitig eine Verzweigungsstrafe für aufeinanderfolgende Werkzeugaufrufe mit hoher Entropie einführt, um Überverzweigung zu verhindern; sowie (2) der Entropiegebalancierten Policy-Optimierung, die eine Stop-Gradient-Operation in den hochentropischen Clipping-Term integriert, um die Gradienten an hochentropischen Token zu erhalten und korrekt neu zu skalieren, und gleichzeitig eine entropiebewusste Vorteilsschätzung einsetzt, um das Lernen an hochunsicheren Token zu priorisieren. Ergebnisse auf 14 anspruchsvollen Datensätzen zeigen, dass AEPO konsistent 7 gängige RL-Algorithmen übertrifft. Mit lediglich 1.000 RL-Proben erreicht Qwen3-14B mit AEPO beeindruckende Ergebnisse: 47,6 % auf GAIA, 11,2 % auf Humanity’s Last Exam und 43,0 % auf WebWalker für Pass@1; 65,0 % auf GAIA, 26,0 % auf Humanity’s Last Exam und 70,0 % auf WebWalker für Pass@5. Weitere Analysen ergeben, dass AEPO die Vielfalt der Rollout-Abtastung verbessert, gleichzeitig jedoch eine stabile Policy-Entropie beibehält und somit eine skalierbare Ausbildung von Web-Agenten ermöglicht.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.