Command Palette

Search for a command to run...

1 个月前

微缩扩展FP4量化中的承诺与性能之间的差距

微缩扩展FP4量化中的承诺与性能之间的差距

摘要

近年来,NVIDIA 和 AMD GPU 上支持的硬件加速微尺度 4 位浮点格式(如 MXFP4 和 NVFP4)有望彻底改变大语言模型(LLM)推理的格局。然而,这些格式在实际应用中的优势尚未得到充分验证。本文首次对 MXFP4 和 NVFP4 在训练后量化(post-training quantization)场景下的性能进行了全面研究,揭示了其理论潜力与真实世界表现之间的显著差距。我们的分析表明,当前最先进的量化方法在处理 FP4 格式时面临两大关键挑战:(1)NVFP4 的极小分组尺寸在理论上会抵消传统异常值缓解技术的有效性;(2)MXFP4 采用的“2 的幂次缩放”量化方式会引入显著的量化误差,严重损害模型精度。为弥合这一差距,我们提出 Micro-Rotated-GPTQ(MR-GPTQ),这是一种针对经典 GPTQ 量化算法的改进版本,专门针对 FP4 格式独特的特性进行了优化。该方法通过引入逐块 Hadamard 变换以及格式特异性优化策略,显著提升了量化质量。我们进一步设计了一套高性能 GPU 内核,通过将旋转操作融合至权重矩阵中,并实现激活值的快速在线计算,使 MR-GPTQ 格式在实际部署中几乎不引入额外开销。实验结果表明,在 NVIDIA B200 上,MR-GPTQ 相比 FP16 实现了最高达 3.6 倍的逐层加速和 2.2 倍的端到端加速;在 RTX 5090 上,分别达到 6 倍的逐层加速和 4 倍的端到端加速。大规模实证评估显示,MR-GPTQ 在精度上可达到或超越当前最先进水平,显著提升了 MXFP4 的性能,使其逼近 NVFP4 的表现。综上所述,尽管 FP4 并非对 INT4 的自动性能升级,但通过采用格式专用的优化方法(如 MR-GPTQ),我们能够开辟出一条全新的精度-性能权衡边界,推动大模型高效推理迈向新阶段。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供