HyperAI超神经

3 个月前

英伟达正式推出 Nemotron 3 Nano 4B，这是 Nemotron 3 家族中最新且最紧凑的混合模型。该模型采用 Mamba-Transformer 混合架构，仅含 40 亿参数，专为在 NVIDIA Jetson、GeForce RTX 及 DGX Spark 等边缘设备上高效运行而设计。与传统的从头训练或分阶段压缩不同，Nemotron 3 Nano 4B 通过 Nemotron Elastic 技术从 9B 版本压缩而来，利用智能路由网络自动决定剪枝策略，在大幅降低显存占用的同时保留了强大的推理能力。为了进一步提升精度与效率，该模型经历了两阶段知识蒸馏以恢复性能，并分别针对长上下文和多轮任务进行了监督微调。此外，英伟达还引入了多阶段强化学习流程，重点优化指令遵循和工具调用能力，使其能胜任复杂的边缘代理任务。在量化方面，模型发布了 FP8 和 Q4_K_M GGUF 两种格式。其中，FP8 版本在英伟达 DGX Spark 和 Jetson Thor 平台上相比原始 BF16 版本提升了 1.8 倍的推理速度和吞吐量，且未损失准确率；而针对 Jetson Orin Nano 8GB 优化的 Q4_K_M 版本，运行速度高达每秒 18 个令牌，是上一代 9B 模型的两倍。作为开源模型，Nemotron 3 Nano 4B 支持 Transformers、vLLM、TRT-LLM 及 Llama.cpp 等多种推理引擎，开发者可直接从 Hugging Face 下载并进行定制微调。这一发布标志着英伟达在轻量化本地 AI 领域迈出了重要一步，不仅实现了更低的推理成本，还通过数据本地化处理增强了隐私安全性，为嵌入式设备、机器人及游戏内的智能代理应用提供了强有力的技术支撑。

此资讯由 AI 智能聚合生成，旨在高效传递行业动态，不代表任何观点或建议。

相关链接

相关链接

相关链接

论文周报 | DeepMind D4RT 统一动态 4D 重建，推理速度飙升 300 倍；打破 AGI 通用幻想，哥大等提出 SAI 理论重塑 AI 演进目标… 速览一周 AI 前沿论文

论文周报 | DeepMind D4RT 统一动态 4D 重建，推理速度飙升 300 倍；打破 AGI 通用幻想，哥大等提出 SAI 理论重塑 AI 演进目标… 速览一周 AI 前沿论文

Command Palette

Nvidia 发布 Nemotron 3 Nano 4B 混合模型，助力高效本地 AI

相关链接

Command Palette

Nvidia 发布 Nemotron 3 Nano 4B 混合模型，助力高效本地 AI

相关链接

Command Palette

Nvidia 发布 Nemotron 3 Nano 4B 混合模型，助力高效本地 AI

相关链接

论文周报 | DeepMind D4RT 统一动态 4D 重建，推理速度飙升 300 倍；打破 AGI 通用幻想，哥大等提出 SAI 理论重塑 AI 演进目标… 速览一周 AI 前沿论文

论文周报 | DeepMind D4RT 统一动态 4D 重建，推理速度飙升 300 倍；打破 AGI 通用幻想，哥大等提出 SAI 理论重塑 AI 演进目标… 速览一周 AI 前沿论文