AceReason-Nemotron 1.1: 数学とコード推論の進歩を図るSFTとRLのシナジー

Zihan Liu, Zhuolin Yang, Yang Chen, Chankyu Lee, Mohammad Shoeybi, Bryan Catanzaro, Wei Ping

公開日: 6/18/2025

AceReason-Nemotron 1.1: 数学とコード推論の進歩を図るSFTとRLのシナジー

要約

本研究では、教師あり微調整（Supervised Fine-Tuning: SFT）と強化学習（Reinforcement Learning: RL）の相乗効果について、強力な推論モデルの開発におけるその影響を調査しています。まず、SFTの訓練データを2つのスケーリング戦略を通じて整備しました：プロンプトの収集数を増加させることと、各プロンプトに対する生成応答数を増加させることです。両方のアプローチは推論性能に顕著な改善をもたらしましたが、プロンプト数のスケーリングがより大きな成果をもたらしました。次に、SFTとRLの相乗効果に関する以下の問いを探求しました：(i) 大規模なRLトレーニング後、より強いSFTモデルが一貫して最終的な性能向上につながるか？ (ii) 与えられたSFT初期化に対して探索と活用を効果的にバランスさせるために、RLトレーニング中に適切なサンプリング温度を選定する方法は何か？我々の結果は、(i) が真であることを示唆しており、特にサンプリング温度を慎重に選択して温度調整済みエントロピーを約0.3に保つことで、探索と活用の良いバランスが取れるという条件のもとに有効なRLトレーニングが行われた場合です。注目に値するのは、RLプロセスを通じて初期SFTモデル間の性能差が大幅に縮小することです。これらの知見に基づき、強力なSFT基盤とSFTとRLとの相乗効果に関する洞察を活用することで、我々のAceReason-Nemotron-1.1 7BモデルはAceReason-Nemotron-1.0を大幅に上回り、挑戦的な数学およびコードベンチマークにおいてQwen2.5-7Bベースの推論モデルの中で新たな最先端性能を達成しました。これにより、我々のポストトレーニングレシピの有効性が証明されています。モデルおよびデータは以下から公開されています：https://huggingface.co/nvidia/AceReason-Nemotron-1.1-7B

論文の詳細を見る