HyperAIHyperAI

Command Palette

Search for a command to run...

Nvidia 发布 Nemotron 3 Nano 4B 混合模型,助力高效本地 AI

英伟达正式推出 Nemotron 3 Nano 4B,这是 Nemotron 3 家族中最新且最紧凑的混合模型。该模型采用 Mamba-Transformer 混合架构,仅含 40 亿参数,专为在 NVIDIA Jetson、GeForce RTX 及 DGX Spark 等边缘设备上高效运行而设计。与传统的从头训练或分阶段压缩不同,Nemotron 3 Nano 4B 通过 Nemotron Elastic 技术从 9B 版本压缩而来,利用智能路由网络自动决定剪枝策略,在大幅降低显存占用的同时保留了强大的推理能力。 为了进一步提升精度与效率,该模型经历了两阶段知识蒸馏以恢复性能,并分别针对长上下文和多轮任务进行了监督微调。此外,英伟达还引入了多阶段强化学习流程,重点优化指令遵循和工具调用能力,使其能胜任复杂的边缘代理任务。在量化方面,模型发布了 FP8 和 Q4_K_M GGUF 两种格式。其中,FP8 版本在英伟达 DGX Spark 和 Jetson Thor 平台上相比原始 BF16 版本提升了 1.8 倍的推理速度和吞吐量,且未损失准确率;而针对 Jetson Orin Nano 8GB 优化的 Q4_K_M 版本,运行速度高达每秒 18 个令牌,是上一代 9B 模型的两倍。 作为开源模型,Nemotron 3 Nano 4B 支持 Transformers、vLLM、TRT-LLM 及 Llama.cpp 等多种推理引擎,开发者可直接从 Hugging Face 下载并进行定制微调。这一发布标志着英伟达在轻量化本地 AI 领域迈出了重要一步,不仅实现了更低的推理成本,还通过数据本地化处理增强了隐私安全性,为嵌入式设备、机器人及游戏内的智能代理应用提供了强有力的技术支撑。

相关链接