HyperAI超神经

量化感知训练的缩放定律

Chen, Mengzhao ; Zhang, Chaoyi ; Liu, Jing ; Zeng, Yutao ; Xue, Zeyue ; Liu, Zhiheng ; Li, Yunshui ; Ma, Jin ; Huang, Jie ; Zhou, Xun ; Luo, Ping
发布日期: 5/22/2025
量化感知训练的缩放定律
摘要

大型语言模型(LLMs)需要大量的计算和内存资源,这给部署带来了挑战。量化感知训练(QAT)通过降低模型精度来解决这些挑战,同时保持性能。然而,QAT的扩展行为,尤其是在4位精度(W4A4)下的表现,尚未得到充分理解。现有的QAT扩展定律通常忽略了关键因素,如训练令牌数量和量化粒度,这限制了它们的适用性。本文提出了一种统一的QAT扩展定律,该定律将量化误差建模为模型大小、训练数据量和量化组大小的函数。通过268次QAT实验,我们展示了随着模型大小的增加,量化误差会减少;但随着训练令牌数量的增加和量化粒度的变粗,量化误差会上升。为了识别W4A4量化误差的来源,我们将其分解为权重和激活成分。这两个成分都遵循W4A4量化误差的整体趋势,但敏感度不同。具体而言,权重量化误差随着训练令牌数量的增加而更快地上升。进一步分析表明,FC2层中的激活量化误差由于异常值的存在成为W4A4 QAT量化误差的主要瓶颈。通过应用混合精度量化来解决这一瓶颈问题,我们证明了权重和激活量化误差可以收敛到相似水平。此外,在更多的训练数据下,权重量化误差最终超过了激活量化误差,这表明在这些情况下减少权重量化误差也非常重要。这些发现为改进QAT的研究和开发提供了重要见解。