HyperAIHyperAI

Command Palette

Search for a command to run...

1 天前
NVIDIA
LLM

Model Optimizer生成Nemotron 3 Ultra NVFP4模型

英伟达近日正式发布 Nemotron 3 Ultra 大模型的 NVFP4 量化检查点,并同步开源配套优化工具链。针对长上下文场景下大模型权重传输的算力瓶颈,团队采用 Blackwell 架构原生支持的 NVFP4 格式,结合四六缩放校准算法对 5500 亿参数模型实施混合精度量化。经优化,模型体积由 BF16 标准的 1121GB 压缩至 352.3GB,实现 3.2 倍缩减。精度控制方面,团队摒弃传统固定缩放策略,根据网络层敏感度动态分配精度:嵌入与注意力层维持 BF16,路由专家层启用 NVFP4,共享专家与 Mamba 模块采用 FP8。该策略在多项基准测试中成功保持与 BF16 一致的准确率。性能测试显示,该量化版本在解码密集型工作负载下推理吞吐量最高提升 5.9 倍。此外,检查点具备跨代硬件兼容能力,在 Hopper 架构上自动降级为 W4A16 运行,在 Blackwell 架构则直接调用原生 W4A4 张量核心。全流程依托 NVIDIA Model Optimizer 与 Megatron-LM 搭建,支持多卡分布式并行校准,并提供标准化配置文件与一键启动脚本,大幅降低开发者部署高精度低比特大模型的工程门槛。

相关链接