Command Palette
Search for a command to run...

要約
基礎モデルに対する強化学習の最近の進展、特にグループ相対方策最適化(Group Relative Policy Optimization, GRPO)は、基礎モデルの推論タスクにおける性能を顕著に向上させている。特に、GRPOにおいては、アドバンテージ関数が軌道の重要性を順位付けする中心的なメカニズムとして機能している。しかしながら、従来の手法ではアドバンテージの逆転(advantage reversal)およびアドバンテージの鏡像化(advantage mirror)問題に直面しており、これにより異なるクエリサンプル間での適切なアドバンテージ配分が阻害されている。本研究では、シンプルかつ効果的なGRPO戦略として、混合アドバンテージ方策最適化(Mixed Advantage Policy Optimization, MAPO)を提案する。我々は、軌道の確信度が異なること、すなわちサンプルごとに異なる確実性を持つことを見出し、高確信度の軌道を持つサンプルに対して「アドバンテージの割合偏差(advantage percent deviation)」を導入した。さらに、軌道の確信度に応じてアドバンテージ関数を動的に再重み付けすることで、サンプルごとの特徴を適応的に反映するアドバンテージ関数の構成を実現した。最先端の関連手法との比較および異なるアドバンテージ変種に対する消去実験(ablation studies)により、本手法の有効性が検証された。