NVIDIA

摘要
我们推出了Nemotron 3 Nano 30B-A3B,这是一种基于混合专家(Mixture-of-Experts)架构的混合Mamba-Transformer语言模型。Nemotron 3 Nano在25万亿个文本标记上进行了预训练,其中包括超过3万亿个相较于Nemotron 2新增的唯一标记,随后在多样化环境中进行了监督微调及大规模强化学习。与前代Nemotron 2 Nano相比,Nemotron 3 Nano在每前向传播过程中激活的参数少于一半,同时实现了更高的准确率。在推理吞吐量方面,其性能最高可达类似规模开源模型(如GPT-OSS 20B和Qwen3-30B-A3B-Thinking-2507)的3.3倍,且在多个主流基准测试中表现更优。Nemotron 3 Nano在智能体行为、推理能力及对话交互方面均有显著提升,并支持长达100万标记的上下文长度。我们已在Hugging Face平台公开发布Nemotron 3 Nano 30B-A3B基础预训练模型(Base)及后续微调后的检查点(post-trained checkpoints)。