1日前

Pass@1を越えて:変分問題生成を用いた自己対戦がRLVRの持続性を支える

Xiao Liang, Zhongzhi Li, Yeyun Gong, Yelong Shen, Ying Nian Wu, Zhijiang Guo, Weizhu Chen
Pass@1を越えて:変分問題生成を用いた自己対戦がRLVRの持続性を支える
要約

最近、検証可能な報酬を用いた強化学習(Reinforcement Learning with Verifiable Rewards: RLVR)は、大規模言語モデル(LLM)の微調整段階において、特に複雑な推論タスクに対応する主要な枠組みとして注目されている。しかし、従来のRLVR学習では、Pass@1性能の向上に伴い方策のエントロピーが低下するという問題が指摘されており、生成の多様性が制限され、通常はLLMの推論能力の上限を示すとされるPass@k性能の向上が阻害されることが明らかになった。本論文では、訓練問題の観点から方策の生成多様性を体系的に分析した結果、訓練問題の拡張と更新が、学習中のエントロピー崩壊を緩和することに有効であることを明らかにした。この知見を基に、我々はRLVR学習のためのオンライン型自己対戦による変分的問題生成戦略(Self-play with Variational problem Synthesis: SvS)を提案する。本戦略は、方策が正解を導いた問題を基に、その参照解答が元の問題と同一となるように変分的問題を自動生成する。この自己改善型アプローチにより、学習過程における方策のエントロピーを効果的に維持でき、標準的なRLVRに比べてPass@k性能が顕著に向上し、長期間にわたる性能改善を維持する。競技レベルのAIME24およびAIME25ベンチマークにおいて、Pass@32性能でそれぞれ18.3%および22.8%の絶対的な向上を達成した。3Bから32Bまでの異なるモデルサイズを対象とした12の推論ベンチマークにおける実験結果から、SvSの汎用性と堅牢性が一貫して確認された。