1 天前

INT 与 FP：细粒度低比特量化格式的综合研究

Mengzhao Chen Meng Wu Hui Jin Zhihang Yuan Jing Liu Chaoyi Zhang Yunshui Li Jie Huang Jin Ma Zeyue Xue

摘要

现代人工智能硬件，例如英伟达的Blackwell架构，正越来越多地采用低精度浮点（FP）格式，以应对大型语言模型（LLMs）中普遍存在的激活值异常值问题。尽管这一趋势在产业界日益明显，但针对不同粒度下浮点（FP）与整数（INT）量化方法的统一比较仍显缺失，导致算法与硬件协同设计缺乏明确指导。本文填补了这一空白，系统性地研究了FP与INT格式之间的权衡关系。我们揭示了一个关键的性能交叉点：虽然FP在粗粒度量化中表现优异，但在细粒度（块级）量化场景下，对比结果更为复杂。我们的全面分析表明，对于主流的8位细粒度量化格式（如块大小为32的MX格式），MXINT8在算法精度和硬件效率方面均优于其对应的FP版本。然而，在4位量化场景下，FP格式（如MXFP4、NVFP4）通常在精度上具有优势；但本文进一步证明，当引入哈达玛旋转（Hadamard rotation）等异常值缓解技术后，NVINT4甚至可以超越NVFP4。此外，我们提出了一种对称裁剪方法，有效解决了细粒度低比特INT训练中的梯度偏差问题，使得MXINT8训练几乎实现无损性能。这些发现挑战了当前硬件发展的主流路径，表明“一刀切”的FP方案并非最优，而细粒度INT格式，尤其是MXINT8，能够为未来AI加速器提供更优的精度、功耗与效率平衡。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

INT 与 FP：细粒度低比特量化格式的综合研究

Mengzhao Chen Meng Wu Hui Jin Zhihang Yuan Jing Liu Chaoyi Zhang Yunshui Li Jie Huang Jin Ma Zeyue Xue3 more

摘要

用 AI 构建 AI

Hyper Newsletters

Mengzhao Chen Meng Wu Hui Jin Zhihang Yuan Jing Liu Chaoyi Zhang Yunshui Li Jie Huang Jin Ma Zeyue Xue