Command Palette
Search for a command to run...

要約
最近、エージェント型強化学習(Agentic Reinforcement Learning, Agentic RL)は、ウェブエージェントの複数ターン・長期タスクにおけるツール利用能力を促進する点で顕著な進展を遂げている。しかし、主流のエージェント型RLアルゴリズムはエントロピーを指標として高不確実性のツール呼び出しステップを自律的に探索するが、エントロピー信号への過度な依存はさらなる制約をもたらし、学習の崩壊を引き起こす可能性がある。本論文では、エントロピーに起因する課題に着目し、ロールアウト段階とポリシー更新段階の両方でエントロピーを適切にバランスさせるための、エージェント型エントロピー・バランスド・ポリシー最適化(Agentic Entropy-Balanced Policy Optimization, AEPO)を提案する。AEPOは以下の2つの主要な構成要素からなる:(1)エントロピー事前モニタリングを用いて、グローバルおよびブランチサンプリング予算を動的に配分する動的エントロピー・バランスド・ロールアウト機構。この機構は、連続する高エントロピーのツール呼び出しステップに対してブランチペナルティを課すことで、過剰な分岐を防止する。また(2)エントロピー・バランスド・ポリシー最適化では、高エントロピークリッピング項にストップ・グラデント操作を挿入することで、高エントロピートークンにおける勾配を保持し、適切にスケーリングする。さらに、エントロピーに配慮したアドバンテージ推定を導入し、高不確実性のトークンに対する学習を優先的に実現する。14の困難なデータセットにおける実験結果から、AEPOは7種類の主流RLアルゴリズムを一貫して上回ることが示された。わずか1,000サンプルのRLデータを用いた場合でも、Qwen3-14BにAEPOを適用することで、GAIAで47.6%、Humanity's Last Examで11.2%、WebWalkerでPass@1で43.0%の性能を達成。またPass@5では、GAIAで65.0%、Humanity's Last Examで26.0%、WebWalkerで70.0%の結果を記録した。さらに詳細な分析により、AEPOがロールアウトにおけるサンプリングの多様性を向上させつつ、ポリシーのエントロピーを安定させることで、スケーラブルなウェブエージェント学習を実現していることが明らかになった。