NVIDIA Nemotron Nano 2:高精度かつ効率的なハイブリッドMamba-Transformer推論モデル

Nemotron-Nano-9B-v2 を紹介します。これは、同規模のモデルと比較して最先端の精度を達成しつつ、推論ワークロードにおけるスループットを向上させるために設計されたハイブリッド Mamba-Transformer 言語モデルです。Nemotron-Nano-9B-v2 は、一般的な Transformer アーキテクチャにおける自己注意(self-attention)層の大部分を Mamba-2 層に置き換えた「Nemotron-H」アーキテクチャを基盤としています。これにより、推論時に長大な思考プロセス(thinking traces)を生成する必要がある理由付け(reasoning)タスクにおいて、より高速な推論が可能になります。 Nemotron-Nano-9B-v2 の構築は、まず 20 兆トークン分のデータ上で FP8 学習手法を用いて、120億パラメータのモデル(Nemotron-Nano-12B-v2-Base)を事前学習することから始まります。その後、Nemotron-Nano-12B-v2-Base を適応(align)したのち、Minitron 戦略を用いてモデルを圧縮・知識蒸留(distillation)し、単一の NVIDIA A10G GPU(メモリ容量 22GiB、bfloat16 精度)上で最大 128k トークンの入力に対応した推論を可能にするという目標を達成しました。 既存の同規模モデル(例:Qwen3-8B)と比較して、Nemotron-Nano-9B-v2 は、理由付けベンチマークにおいて同等またはより高い精度を達成するとともに、8k 入力・16k 出力トークンといった推論設定において、最大 6 倍のスループット向上を実現しました。 本研究では、Nemotron-Nano-9B-v2、Nemotron-Nano-12B-v2-Base、および Nemotron-Nano-9B-v2-Base のチェックポイントを含め、多数の事前学習および後処理データセットを Hugging Face 上で公開いたします。