Agente Stärkung der Politik-Optimierung

Die großflächige Verstärkungslernmethode mit verifizierbaren Belohnungen (RLVR) hat ihre Wirksamkeit bei der Nutzung des Potenzials großer Sprachmodelle (LLMs) für Einzel-Reasoning-Aufgaben gezeigt. In realistischen Reasoning-Szenarien können LLMs häufig externe Tools zur Unterstützung des Aufgabenlöseprozesses einsetzen. Derzeitige RL-Algorithmen balancieren jedoch unzureichend die inhärente langfristige Reasoning-Fähigkeit der Modelle und ihre Fertigkeit im Umgang mit mehrschrittigen Tool-Interaktionen. Um diese Lücke zu schließen, schlagen wir Agentic Reinforced Policy Optimization (ARPO) vor, einen neuen agentenbasierten RL-Algorithmus, der speziell für die Ausbildung von mehrschrittigen LLM-basierten Agenten entwickelt wurde. In Vorversuchen beobachten wir, dass LLMs tendenziell ungewisse Verhaltensmuster zeigen, die durch eine Erhöhung der Entropie der generierten Tokens gekennzeichnet sind, unmittelbar nach Interaktionen mit externen Tools. Ausgehend von dieser Beobachtung integriert ARPO einen entropiebasierten adaptiven Rollout-Mechanismus, der dynamisch das globale Trajektorien-Sampling und das Schritt-für-Schritt-Sampling ausbalanciert und dadurch die Exploration an Schritten mit hoher Unsicherheit nach der Nutzung von Tools fördert. Durch die Integration einer Advantage-Attribution-Schätzung ermöglicht ARPO es LLMs, Advantage-Differenzen bei schrittweisen Tool-Interaktionen zu internalisieren. Unsere Experimente an 13 anspruchsvollen Benchmarks aus den Bereichen rechnerisches Reasoning, Wissens-Reasoning und tiefes Suchen zeigen die Überlegenheit von ARPO gegenüber Trajektorien-RL-Algorithmen. Bemerkenswerterweise erreicht ARPO eine verbesserte Leistung mit nur der Hälfte des Tool-Use-Budgets, das von bestehenden Methoden benötigt wird, und bietet damit eine skalierbare Lösung zur Ausrichtung von LLM-basierten Agenten an dynamische Echtzeitumgebungen. Unsere Code- und Datensätze sind unter https://github.com/dongguanting/ARPO veröffentlicht.