Command Palette
Search for a command to run...

摘要
现代人工智能硬件,例如英伟达的Blackwell架构,正越来越多地采用低精度浮点(FP)格式,以应对大型语言模型(LLMs)中普遍存在的激活值异常值问题。尽管这一趋势在产业界日益明显,但针对不同粒度下浮点(FP)与整数(INT)量化方法的统一比较仍显缺失,导致算法与硬件协同设计缺乏明确指导。本文填补了这一空白,系统性地研究了FP与INT格式之间的权衡关系。我们揭示了一个关键的性能交叉点:虽然FP在粗粒度量化中表现优异,但在细粒度(块级)量化场景下,对比结果更为复杂。我们的全面分析表明,对于主流的8位细粒度量化格式(如块大小为32的MX格式),MXINT8在算法精度和硬件效率方面均优于其对应的FP版本。然而,在4位量化场景下,FP格式(如MXFP4、NVFP4)通常在精度上具有优势;但本文进一步证明,当引入哈达玛旋转(Hadamard rotation)等异常值缓解技术后,NVINT4甚至可以超越NVFP4。此外,我们提出了一种对称裁剪方法,有效解决了细粒度低比特INT训练中的梯度偏差问题,使得MXINT8训练几乎实现无损性能。这些发现挑战了当前硬件发展的主流路径,表明“一刀切”的FP方案并非最优,而细粒度INT格式,尤其是MXINT8,能够为未来AI加速器提供更优的精度、功耗与效率平衡。