日付

2ヶ月前

組織

Paper URL

タグ

エージェント型エントロピーバランス政策最適化（AEPO）は、2025年10月に中国人民大学とKuaishouの共同研究チームによって提案されました。関連する研究成果は論文「[…]」に掲載されました。エージェントエントロピーバランスポリシー最適化”。

AEPOは、ポリシー展開およびポリシー更新フェーズにおけるエントロピーバランスをとるように設計されたエージェント強化学習（RL）アルゴリズムです。AEPOは2つのコアコンポーネントで構成されています。(1) 動的エントロピーバランス拡張メカニズムは、エントロピー事前監視を通じてグローバルおよび分岐サンプリング予算を適応的に割り当て、同時に高エントロピーツール呼び出しステップの連続に分岐ペナルティを課すことで過剰分岐を防止します。(2) エントロピーバランスポリシー最適化メカニズムは、高エントロピープルーニング項に停止勾配演算を挿入することで高エントロピーラベルの勾配を保持し、適切に再スケーリングします。また、エントロピーを考慮したアドバンテージ推定を組み込むことで、不確実性の高いラベルの学習を優先します。14の難易度の高いデータセットでの結果から、AEPOは7つの主流RLアルゴリズムを一貫して上回っていることが実証されています。