Command Palette
Search for a command to run...
Runzhe Zhan Yafu Li Zhi Wang Xiaoye Qu Dongrui Liu Jing Shao Derek F. Wong Yu Cheng

要約
検証可能な報酬からの強化学習(RLVR)は、大規模言語モデルの推論能力を向上させるための新しいパラダイムとして注目されている。しかし、従来のオンポリシー学習では、一度の更新後にロールアウト経験を放棄してしまうため、計算上の非効率性と学習の不安定性が生じる。これまでの強化学習研究では、過去の経験を再利用する利点が指摘されてきたが、経験の特性が大規模推論モデルの学習ダイナミクスにどのように影響するかについては、まだ十分に解明されていない。本論文では、初めて推論経験の価値を決定する要因を解明し、ロールアウトの正しさ(correctness)とエントロピーを、経験の価値を効果的に示す指標として特定した。これらの知見をもとに、価値ある経験を組織化・優先順位付けし、探索と経験の活用のバランスを取るための混合ポリシー目的関数を採用する「ExGRPO(Experiential Group Relative Policy Optimization)」というフレームワークを提案する。1.5B~8Bパラメータの5種類のベースモデルを用いた実験により、ExGRPOは数学的・一般的ベンチマークにおいて、オンポリシーRLVRと比較して平均+3.5点/+7.6点の性能向上を一貫して達成した。さらに、オンポリシー手法が失敗する強力なモデルおよび弱いモデルにおいても、ExGRPOは学習の安定性を確保した。これらの結果は、効率的かつスケーラブルなRLVRの実現に向け、原理的な経験管理が鍵となる要素であることを示している。