16日前

エージェント的エントロピー・バランス型ポリシー最適化

Guanting Dong Licheng Bao Zhongyuan Wang Kangzhi Zhao Xiaoxi Li Jiajie Jin Jinghan Yang Hangyu Mao Fuzheng Zhang Kun Gai

要約

最近、エージェント型強化学習（Agentic Reinforcement Learning, Agentic RL）は、ウェブエージェントの複数ターン・長期タスクにおけるツール利用能力を促進する点で顕著な進展を遂げている。しかし、主流のエージェント型RLアルゴリズムはエントロピーを指標として高不確実性のツール呼び出しステップを自律的に探索するが、エントロピー信号への過度な依存はさらなる制約をもたらし、学習の崩壊を引き起こす可能性がある。本論文では、エントロピーに起因する課題に着目し、ロールアウト段階とポリシー更新段階の両方でエントロピーを適切にバランスさせるための、エージェント型エントロピー・バランスド・ポリシー最適化（Agentic Entropy-Balanced Policy Optimization, AEPO）を提案する。AEPOは以下の2つの主要な構成要素からなる：（1）エントロピー事前モニタリングを用いて、グローバルおよびブランチサンプリング予算を動的に配分する動的エントロピー・バランスド・ロールアウト機構。この機構は、連続する高エントロピーのツール呼び出しステップに対してブランチペナルティを課すことで、過剰な分岐を防止する。また（2）エントロピー・バランスド・ポリシー最適化では、高エントロピークリッピング項にストップ・グラデント操作を挿入することで、高エントロピートークンにおける勾配を保持し、適切にスケーリングする。さらに、エントロピーに配慮したアドバンテージ推定を導入し、高不確実性のトークンに対する学習を優先的に実現する。14の困難なデータセットにおける実験結果から、AEPOは7種類の主流RLアルゴリズムを一貫して上回ることが示された。わずか1,000サンプルのRLデータを用いた場合でも、Qwen3-14BにAEPOを適用することで、GAIAで47.6%、Humanity's Last Examで11.2%、WebWalkerでPass@1で43.0%の性能を達成。またPass@5では、GAIAで65.0%、Humanity's Last Examで26.0%、WebWalkerで70.0%の結果を記録した。さらに詳細な分析により、AEPOがロールアウトにおけるサンプリングの多様性を向上させつつ、ポリシーのエントロピーを安定させることで、スケーラブルなウェブエージェント学習を実現していることが明らかになった。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング

すぐに使える GPU

最適価格

今すぐ始める

Hyper Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Command Palette

エージェント的エントロピー・バランス型ポリシー最適化

Guanting Dong Licheng Bao Zhongyuan Wang Kangzhi Zhao Xiaoxi Li Jiajie Jin Jinghan Yang Hangyu Mao Fuzheng Zhang Kun Gai4 more

要約

AI で AI を構築

Hyper Newsletters

Guanting Dong Licheng Bao Zhongyuan Wang Kangzhi Zhao Xiaoxi Li Jiajie Jin Jinghan Yang Hangyu Mao Fuzheng Zhang Kun Gai