Chang Gao Chujie Zheng Xiong-Hui Chen Kai Dang Shixuan Liu Bowen Yu An Yang Shuai Bai Jingren Zhou Junyang Lin

要約
強化学習(RL)は、大規模言語モデル(LLM)の推論能力を向上させる上でますます重要な役割を果たしているが、安定かつ高性能な方策最適化は依然として課題である。トークンレベルでの重要度比はしばしば高い分散を示す——特に混合専門家モデル(Mixture-of-Expertsモデル)ではこの現象が顕著であり、更新の不安定性を引き起こす。既存のグループベース方策最適化手法(例:GSPOやGRPO)はハードクリッピングを用いてこの問題を緩和しているが、安定性と有効な学習の両立が困難である。本研究では、ハードクリッピングを代替する滑らかで温度制御可能なゲートを導入した「ソフト適応型方策最適化(SAPO)」を提案する。このゲートは、オフポリシー更新を適応的に減衰させつつ、有用な学習信号を維持する。GSPOやGRPOと比較して、SAPOはシーケンス整合性とトークン適応性の両方を備えている。GSPOと同様にシーケンスレベルでの整合性を保持するが、そのソフトゲートは連続的な信頼領域を形成し、GSPOが用いる脆いハードクリッピング帯域を回避する。あるシーケンスにわずかにオフポリシー性の強いトークンが含まれる場合、GSPOはそのシーケンス全体の勾配を抑制してしまうが、SAPOは悪影響を及ぼすトークンのみを選択的に低重み化し、近似オンポリシーなトークンからの学習信号を保持するため、サンプル効率が向上する。GRPOと比較すると、SAPOはハードなトークンレベルクリッピングを、滑らかで温度制御されたスケーリングに置き換えることで、より情報量豊かで安定した更新を可能にする。数学的推論ベンチマークにおける実証結果から、同等の学習予算下でもSAPOは訓練の安定性が向上し、Pass@1性能が向上することが示された。さらに、Qwen3-VLモデルシリーズの学習にSAPOを適用した結果、異なるタスクおよび異なるモデルサイズにおいて一貫した性能向上が確認された。総じて、SAPOはLLMのRL訓練においてより信頼性が高く、スケーラブルかつ効果的な最適化戦略を提供する。