1ヶ月前

MAPO：ミックスドアドバンテージポリシー最適化

Wenke Huang Quan Zhang Yiyang Fang Jian Liang Xuankun Rong Huanjin Yao Guancheng Wan Ke Liang Wenwen He Mingjun Li

要約

基礎モデルに対する強化学習の最近の進展、特にグループ相対方策最適化（Group Relative Policy Optimization, GRPO）は、基礎モデルの推論タスクにおける性能を顕著に向上させている。特に、GRPOにおいては、アドバンテージ関数が軌道の重要性を順位付けする中心的なメカニズムとして機能している。しかしながら、従来の手法ではアドバンテージの逆転（advantage reversal）およびアドバンテージの鏡像化（advantage mirror）問題に直面しており、これにより異なるクエリサンプル間での適切なアドバンテージ配分が阻害されている。本研究では、シンプルかつ効果的なGRPO戦略として、混合アドバンテージ方策最適化（Mixed Advantage Policy Optimization, MAPO）を提案する。我々は、軌道の確信度が異なること、すなわちサンプルごとに異なる確実性を持つことを見出し、高確信度の軌道を持つサンプルに対して「アドバンテージの割合偏差（advantage percent deviation）」を導入した。さらに、軌道の確信度に応じてアドバンテージ関数を動的に再重み付けすることで、サンプルごとの特徴を適応的に反映するアドバンテージ関数の構成を実現した。最先端の関連手法との比較および異なるアドバンテージ変種に対する消去実験（ablation studies）により、本手法の有効性が検証された。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング

すぐに使える GPU

最適価格

今すぐ始める

Hyper Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Command Palette

MAPO：ミックスドアドバンテージポリシー最適化

Wenke Huang Quan Zhang Yiyang Fang Jian Liang Xuankun Rong Huanjin Yao Guancheng Wan Ke Liang Wenwen He Mingjun Li4 more

要約

AI で AI を構築

Hyper Newsletters

Wenke Huang Quan Zhang Yiyang Fang Jian Liang Xuankun Rong Huanjin Yao Guancheng Wan Ke Liang Wenwen He Mingjun Li