Command Palette
Search for a command to run...
Gang Li Ming Lin Tomer Galanti Zhengzhong Tu Tianbao Yang

要約
DeepSeek-R1の最近の成功とオープン性により、大規模推論モデル(LRM)における強化学習手法としてのGroup Relative Policy Optimization(GRPO)が広く注目されるようになった。本研究では、二値報酬設定下におけるGRPOの目的関数を分析し、質問レベルの難易度バイアスという本質的な制約を明らかにした。また、GRPOと教師あり学習における従来の判別型手法との間に新たな関連性を発見した。これらの知見を踏まえ、判別学習の原理に基づく新しい判別制約最適化(Discriminative Constrained Optimization, DisCO)枠組みを提案する。DisCOとGRPOおよびその最近の変種との主な相違点は以下の通りである:(1)グループ相対的目標関数をスコア関数によって定義される判別型目標関数に置き換える;(2)クリッピングに基づく近似関数を用いるのではなく、スコア関数として非クリッピング型の強化学習近似関数を採用する;(3)KLダイバージェンス制約を効果的に満たすため、シンプルながらも有効な制約付き最適化アプローチを用いる。その結果、DisCOはGRPOおよびその変種に対して顕著な利点を示す:(i)判別型目標関数の導入により、難易度バイアスを完全に排除する;(ii)非クリッピング型スコア関数と制約付き最適化アプローチを用いることで、GRPOおよびその変種に見られるエントロピーの不安定性を解消し、長期間にわたる安定した学習ダイナミクスを実現する;(iii)データの不均衡問題に対処するため、高度な判別学習技術を容易に統合可能であり、特に学習中に多くの質問に対して生成された回答が正例より負例が圧倒的に多いという状況でも有効である。1.5Bパラメータ規模のSFT微調整モデルの数学的推論能力向上を対象とした実験の結果、DisCOはGRPOおよびその改善版DAPOを著しく上回り、6つのベンチマークタスクにおいて平均でGRPO比7%、DAPO比6%の性能向上を達成した。