HyperAI超神经

英伟达近日正式发布 Nemotron 3 Ultra 大模型的 NVFP4 量化检查点，并同步开源配套优化工具链。针对长上下文场景下大模型权重传输的算力瓶颈，团队采用 Blackwell 架构原生支持的 NVFP4 格式，结合四六缩放校准算法对 5500 亿参数模型实施混合精度量化。经优化，模型体积由 BF16 标准的 1121GB 压缩至 352.3GB，实现 3.2 倍缩减。精度控制方面，团队摒弃传统固定缩放策略，根据网络层敏感度动态分配精度：嵌入与注意力层维持 BF16，路由专家层启用 NVFP4，共享专家与 Mamba 模块采用 FP8。该策略在多项基准测试中成功保持与 BF16 一致的准确率。性能测试显示，该量化版本在解码密集型工作负载下推理吞吐量最高提升 5.9 倍。此外，检查点具备跨代硬件兼容能力，在 Hopper 架构上自动降级为 W4A16 运行，在 Blackwell 架构则直接调用原生 W4A4 张量核心。全流程依托 NVIDIA Model Optimizer 与 Megatron-LM 搭建，支持多卡分布式并行校准，并提供标准化配置文件与一键启动脚本，大幅降低开发者部署高精度低比特大模型的工程门槛。

相关链接

相关链接

相关链接

4 步出图/4K 画质/6 倍提速，PiD 用像素扩散统一解码与超分辨率输出；SA-3DAO：包含 1000 组真实图像与艺术家手工 3D 网格配对的数据集

4 步出图/4K 画质/6 倍提速，PiD 用像素扩散统一解码与超分辨率输出；SA-3DAO：包含 1000 组真实图像与艺术家手工 3D 网格配对的数据集

Command Palette

Model Optimizer生成Nemotron 3 Ultra NVFP4模型

相关链接

Command Palette

Model Optimizer生成Nemotron 3 Ultra NVFP4模型

相关链接

Command Palette

Model Optimizer生成Nemotron 3 Ultra NVFP4模型

相关链接

4 步出图/4K 画质/6 倍提速，PiD 用像素扩散统一解码与超分辨率输出；SA-3DAO：包含 1000 组真实图像与艺术家手工 3D 网格配对的数据集

4 步出图/4K 画质/6 倍提速，PiD 用像素扩散统一解码与超分辨率输出；SA-3DAO：包含 1000 组真实图像与艺术家手工 3D 网格配对的数据集