四重奏:原生FP4训练对大型语言模型可能是最优的
Castro, Roberto L. ; Panferov, Andrei ; Tabesh, Soroush ; Sieberling, Oliver ; Chen, Jiale ; Nikdan, Mahdi ; Ashkboos, Saleh ; Alistarh, Dan
发布日期: 5/26/2025

摘要
大型语言模型(LLMs)的快速发展伴随着计算需求的空前增长,最先进的模型训练成本每隔几个月就会翻一番。直接在低精度算术中训练模型提供了一种解决方案,可以提高计算吞吐量和能效。特别是,NVIDIA 最近推出的 Blackwell 架构支持极低精度运算,尤其是 FP4 变体,有望实现显著的效率提升。然而,当前用于 FP4 精度训练的算法面临严重的准确性下降问题,并且通常依赖混合精度回退方案。在本文中,我们系统地研究了硬件支持的 FP4 训练,并引入了一种新的方法——Quartet,该方法能够在所有主要计算(例如线性层中的计算)均以低精度进行的情况下实现准确的端到端 FP4 训练。通过对类似 Llama 的模型进行广泛的评估,我们揭示了一条新的低精度扩展定律,该定律量化了不同位宽下的性能权衡,并使我们能够识别出一种在准确性和计算之间“接近最优”的低精度训练技术,即 Quartet。我们使用针对 NVIDIA Blackwell GPU 优化的 CUDA 内核实现了 Quartet 方法,并展示了其在 FP4 精度下能够达到最先进的准确性,成功训练了数十亿规模的模型。我们的方法表明,完全基于 FP4 的训练是标准精度和 FP8 训练的一个有竞争力的替代方案。我们的代码可在 https://github.com/IST-DASLab/Quartet 获取。