AceReason-Nemotron 1.1: 数学とコード推論の進歩を図るSFTとRLのシナジー

本研究では、教師あり微調整(Supervised Fine-Tuning: SFT)と強化学習(Reinforcement Learning: RL)の相乗効果について、強力な推論モデルの開発におけるその影響を調査しています。まず、SFTの訓練データを2つのスケーリング戦略を通じて整備しました:プロンプトの収集数を増加させることと、各プロンプトに対する生成応答数を増加させることです。両方のアプローチは推論性能に顕著な改善をもたらしましたが、プロンプト数のスケーリングがより大きな成果をもたらしました。次に、SFTとRLの相乗効果に関する以下の問いを探求しました:(i) 大規模なRLトレーニング後、より強いSFTモデルが一貫して最終的な性能向上につながるか? (ii) 与えられたSFT初期化に対して探索と活用を効果的にバランスさせるために、RLトレーニング中に適切なサンプリング温度を選定する方法は何か?我々の結果は、(i) が真であることを示唆しており、特にサンプリング温度を慎重に選択して温度調整済みエントロピーを約0.3に保つことで、探索と活用の良いバランスが取れるという条件のもとに有効なRLトレーニングが行われた場合です。注目に値するのは、RLプロセスを通じて初期SFTモデル間の性能差が大幅に縮小することです。これらの知見に基づき、強力なSFT基盤とSFTとRLとの相乗効果に関する洞察を活用することで、我々のAceReason-Nemotron-1.1 7BモデルはAceReason-Nemotron-1.0を大幅に上回り、挑戦的な数学およびコードベンチマークにおいてQwen2.5-7Bベースの推論モデルの中で新たな最先端性能を達成しました。これにより、我々のポストトレーニングレシピの有効性が証明されています。モデルおよびデータは以下から公開されています:https://huggingface.co/nvidia/AceReason-Nemotron-1.1-7B