HyperAIHyperAI

Command Palette

Search for a command to run...

エージェントエントロピーバランス戦略最適化AEPO

Date

2ヶ月前

Organization

中国人民大学
クアイショウテクノロジー

Paper URL

2510.14545

エージェント型エントロピーバランス政策最適化(AEPO)は、2025年10月に中国人民大学とKuaishouの共同研究チームによって提案されました。関連する研究成果は論文「[…]」に掲載されました。エージェントエントロピーバランスポリシー最適化”。

AEPOは、ポリシー展開およびポリシー更新フェーズにおけるエントロピーバランスをとるように設計されたエージェント強化学習(RL)アルゴリズムです。AEPOは2つのコアコンポーネントで構成されています。(1) 動的エントロピーバランス拡張メカニズムは、エントロピー事前監視を通じてグローバルおよび分岐サンプリング予算を適応的に割り当て、同時に高エントロピーツール呼び出しステップの連続に分岐ペナルティを課すことで過剰分岐を防止します。(2) エントロピーバランスポリシー最適化メカニズムは、高エントロピープルーニング項に停止勾配演算を挿入することで高エントロピーラベルの勾配を保持し、適切に再スケーリングします。また、エントロピーを考慮したアドバンテージ推定を組み込むことで、不確実性の高いラベルの学習を優先します。14の難易度の高いデータセットでの結果から、AEPOは7つの主流RLアルゴリズムを一貫して上回っていることが実証されています。

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています