Back to Headlines

NVFP4 实现 16 位精度训练,媲美 4 位运算的极致速度与能效

1 天前

NVIDIA推出全新NVFP4技术,实现4比特精度预训练,兼顾16比特的精度与4比特的效率和速度。随着大语言模型(LLM)训练规模持续扩大,Token吞吐量成为决定AI发展速度的关键。传统训练依赖16位或32位浮点格式,计算成本高昂。而NVFP4通过4比特量化,大幅降低内存占用与计算开销,同时保持生产级精度,标志着AI训练进入新阶段。 NVFP4最初用于推理优化,显著提升延迟、吞吐与能效。如今,NVIDIA将其扩展至预训练阶段,实现4比特精度下的稳定训练。这一突破并非简单压缩,而是基于专有算法与硬件协同设计,解决了低精度训练中梯度波动、动态范围受限等核心挑战。借助Blackwell架构对FP4的原生支持,GB200与GB300系统在矩阵乘法(GEMM)上实现高达7倍于Hopper架构的性能提升,显著加速模型训练流程。 实验表明,在120亿参数的混合Mamba-Transformer模型上,NVFP4预训练在10万亿Token规模下实现稳定收敛,验证损失曲线与FP8基准高度一致,未出现发散或训练不稳定问题。下游任务测试显示,NVFP4模型性能全面媲美FP8,证明其在大规模训练中具备可行性与可靠性。 该技术的关键在于一套专为低精度训练设计的量化策略,包括动态范围校准、梯度缩放与数值稳定性优化,确保在极低比特下仍能维持模型表达能力。NVFP4不仅节省硬件资源与能耗,更显著提升训练吞吐,使AI工厂能在相同算力下完成更多实验、训练更大模型,加速前沿突破。 目前,NVIDIA正与亚马逊云、谷歌云、OpenAI、Cohere、Perplexity、Kimi AI等领先机构合作推进NVFP4应用。随着技术成熟,4比特预训练有望成为下一代AI工厂的标准范式,推动生成式AI向更高效、更可持续的方向演进。

Related Links