10日前

Llama-Nemotron:効率的な推論モデル

Akhiad Bercovich, Itay Levy, Izik Golan, Mohammad Dabbah, Ran El-Yaniv, Omri Puny, Ido Galil, et al
Llama-Nemotron:効率的な推論モデル
要約

我々は、優れた推論能力と高い推論効率を実現するとともに、企業利用を許容するオープンなライセンスを提供する、異種推論モデルのオープンなシリーズ「Llama-Nemotron」を紹介する。本シリーズは、Nano(8B)、Super(49B)、Ultra(253B)の3つのサイズで提供され、DeepSeek-R1などの最先端推論モデルと競合する性能を発揮しつつ、さらに優れた推論スループットとメモリ効率を実現している。本報告では、これらのモデルの学習プロセスについて詳述する。学習プロセスは、Llama 3モデルを基盤として神経ネットワークアーキテクチャ探索(NAS)を用いた高速推論の実現、知識蒸留、継続的プレトレーニングを経て、推論に特化したポストトレーニング段階に移行する。このポストトレーニング段階は、主に2つの部分から構成される:教師あり微調整(supervised fine-tuning)と大規模強化学習。Llama-Nemotronモデルは、推論中に標準チャットモードと推論モードの切り替えが可能な「動的推論トグル」を初めてオープンソースで実装したモデルである。さらに、オープンな研究を支援し、モデル開発を促進するため、以下のリソースを公開する。1. Llama-Nemotron推論モデル(LN-Nano、LN-Super、LN-Ultra)を、商用利用に優しいNVIDIA Open Model License Agreementの下でリリース。2. 完全なポストトレーニングデータセット「Llama-Nemotron-Post-Training-Dataset」を公開。3. トレーニングコードベースとして、NeMo、NeMo-Aligner、Megatron-LMをそれぞれ公開。