11 天前

NVIDIA Nemotron Nano 2:一种精准且高效的混合Mamba-Transformer推理模型

Aarti Basant, Abhijit Khairnar, Abhijit Paithankar, Abhinav Khattar, Adithya Renduchintala, Aditya Malte, et al
NVIDIA Nemotron Nano 2:一种精准且高效的混合Mamba-Transformer推理模型
摘要

我们推出了Nemotron-Nano-9B-v2,这是一种混合Mamba-Transformer架构的语言模型,旨在提升推理任务的吞吐量,同时在与同类规模模型相比时达到最先进的准确率。Nemotron-Nano-9B-v2基于Nemotron-H架构设计,该架构将通用Transformer结构中大部分自注意力层替换为Mamba-2层,从而在生成推理所需的长思考轨迹时显著提升推理速度。我们首先使用FP8训练方案,在20万亿个标记(tokens)上对一个120亿参数的模型(Nemotron-Nano-12B-v2-Base)进行预训练。在对Nemotron-Nano-12B-v2-Base完成对齐后,我们采用Minitron策略对该模型进行压缩与知识蒸馏,目标是实现在单张NVIDIA A10G GPU(22GiB显存,bfloat16精度)上支持高达128k tokens的推理。相较于现有同类规模模型(如Qwen3-8B),我们在推理基准测试中表明,Nemotron-Nano-9B-v2在准确率上达到相当或更优水平,同时在8k输入与16k输出等推理场景下,推理吞吐量最高提升达6倍。我们已将Nemotron-Nano-9B-v2、Nemotron-Nano-12B-v2-Base及Nemotron-Nano-9B-v2-Base的模型检查点,以及大部分预训练与后训练数据集,发布至Hugging Face平台。