HyperAIHyperAI

Command Palette

Search for a command to run...

AceReason-Nemotron 1.1: 数学とコード推論の進歩を図るSFTとRLのシナジー

Zihan Liu Zhuolin Yang Yang Chen Chankyu Lee Mohammad Shoeybi Bryan Catanzaro Wei Ping

概要

本研究では、教師あり微調整(Supervised Fine-Tuning: SFT)と強化学習(Reinforcement Learning: RL)の相乗効果について、強力な推論モデルの開発におけるその影響を調査しています。まず、SFTの訓練データを2つのスケーリング戦略を通じて整備しました:プロンプトの収集数を増加させることと、各プロンプトに対する生成応答数を増加させることです。両方のアプローチは推論性能に顕著な改善をもたらしましたが、プロンプト数のスケーリングがより大きな成果をもたらしました。次に、SFTとRLの相乗効果に関する以下の問いを探求しました:(i) 大規模なRLトレーニング後、より強いSFTモデルが一貫して最終的な性能向上につながるか? (ii) 与えられたSFT初期化に対して探索と活用を効果的にバランスさせるために、RLトレーニング中に適切なサンプリング温度を選定する方法は何か?我々の結果は、(i) が真であることを示唆しており、特にサンプリング温度を慎重に選択して温度調整済みエントロピーを約0.3に保つことで、探索と活用の良いバランスが取れるという条件のもとに有効なRLトレーニングが行われた場合です。注目に値するのは、RLプロセスを通じて初期SFTモデル間の性能差が大幅に縮小することです。これらの知見に基づき、強力なSFT基盤とSFTとRLとの相乗効果に関する洞察を活用することで、我々のAceReason-Nemotron-1.1 7BモデルはAceReason-Nemotron-1.0を大幅に上回り、挑戦的な数学およびコードベンチマークにおいてQwen2.5-7Bベースの推論モデルの中で新たな最先端性能を達成しました。これにより、我々のポストトレーニングレシピの有効性が証明されています。モデルおよびデータは以下から公開されています:https://huggingface.co/nvidia/AceReason-Nemotron-1.1-7B


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
AceReason-Nemotron 1.1: 数学とコード推論の進歩を図るSFTとRLのシナジー | 記事 | HyperAI超神経