NVIDIA Nemotron Nano 2 9B 引领边缘AI新纪元:高精度推理赋能智能未来
NVIDIA近日推出全新边缘AI模型Nemotron Nano 2 9B,旨在为边缘设备上的AI代理提供高精度推理能力。该模型采用混合Transformer-Mamba架构,兼顾高准确率与高效率,特别适合在资源受限的PC和边缘设备上运行,支持企业级推理与自主智能体应用。 Nemotron Nano 2 9B在同类模型中表现领先,尤其在数学、编程、科学等推理任务上表现优异。其核心创新在于“思考预算”(Thinking Budget)功能,开发者可自定义模型内部推理的长度,通过插入特殊标记“”控制思考过程,从而在保证准确率的同时,减少不必要的token生成,推理成本最高可降低60%。这一机制对响应延迟敏感的应用场景(如客户支持、自动驾驶代理步骤)尤为重要。 该模型基于12B的混合架构基础模型进行压缩与蒸馏,最终形成9B参数版本,可在NVIDIA A10G GPU(22GiB显存)上运行128K上下文推理,且内存使用留有余量。其混合架构结合了Mamba-2的线性时间效率与Transformer的全局信息捕捉能力,在保持Transformer级准确率的同时,实现高达6倍于同类开源模型的吞吐量。 Nemotron Nano 2的训练流程包括多阶段监督微调、强化学习优化和偏好对齐,覆盖数学、编程、工具调用、安全等多个领域。模型还通过Minitron压缩框架实现高效剪枝与搜索,确保在极小参数量下仍保持高性能。 开发者可通过vLLM部署模型,并使用Python客户端实现思考预算控制。示例代码展示了如何限制推理长度,实现精准响应。模型默认开启推理模式(输出思维链),也可关闭以直接输出结果。 NVIDIA同步开源了模型权重、训练数据集与技术方法,支持社区自由使用与改进。Nemotron Nano 2 9B现已可在build.nvidia.com上试用,未来还将通过NVIDIA NIM平台提供一键部署支持。 该模型标志着边缘AI向更智能、更高效方向迈出关键一步,为实时、低成本的AI代理应用提供强大支撑。