NVIDIA Nemotron Nano 2: Ein genauer und effizienter hybrider Mamba-Transformer-Reasoning-Modell

Wir stellen Nemotron-Nano-9B-v2 vor, ein hybrides Mamba-Transformer-Sprachmodell, das darauf ausgelegt ist, die Durchsatzleistung bei Reasoning-Aufgaben zu steigern, während gleichzeitig eine state-of-the-art Genauigkeit im Vergleich zu vergleichbaren Modellen mit ähnlicher Größe erreicht wird. Nemotron-Nano-9B-v2 baut auf der Nemotron-H-Architektur auf, bei der der Großteil der Self-Attention-Schichten der herkömmlichen Transformer-Architektur durch Mamba-2-Schichten ersetzt wurde, um eine verbesserte Inferenzgeschwindigkeit bei der Generierung langer Denkspuren zu ermöglichen, die für Reasoning-Aufgaben erforderlich sind. Das Modell wurde zunächst durch Vortrainieren eines 12-Milliarden-Parameter-Modells (Nemotron-Nano-12B-v2-Base) auf 20 Billionen Tokens unter Verwendung eines FP8-Trainingsrezepts erstellt. Nach der Ausrichtung von Nemotron-Nano-12B-v2-Base wenden wir die Minitron-Strategie an, um das Modell zu komprimieren und durch Distillation zu vereinfachen, mit dem Ziel, eine Inferenz auf bis zu 128.000 Tokens auf einer einzigen NVIDIA A10G-GPU (22 GiB Speicher, bfloat16-Präzision) zu ermöglichen. Im Vergleich zu bestehenden Modellen mit ähnlicher Größe (z. B. Qwen3-8B) zeigen wir, dass Nemotron-Nano-9B-v2 bei Reasoning-Benchmarks eine vergleichbare oder bessere Genauigkeit erreicht und gleichzeitig bis zu sechsmal höhere Inferenzdurchsatzraten in Reasoning-Szenarien wie 8k Eingabewörter und 16k Ausgabewörter erzielt. Wir veröffentlichen Nemotron-Nano-9B-v2, Nemotron-Nano-12B-v2-Base und Nemotron-Nano-9B-v2-Base sowie den Großteil unserer Trainings- und Nachtrainingsdatensätze auf Hugging Face.