
摘要
全量化训练(Fully Quantized Training, FQT)通过将神经网络模型的激活值、权重和梯度均进行低比特量化,利用低比特硬件加速深度神经网络的训练,是一种极具前景的技术路径。然而,FQT面临的一个主要挑战是缺乏系统的理论理解,尤其是关于梯度量化对收敛性影响的机制尚不明确。本文通过构建一个统计分析框架,系统地研究FQT算法的性质。我们将FQT中的量化梯度视为其高精度对应项的随机估计器,这一过程即所谓的量化感知训练(Quantization-Aware Training, QAT)。我们证明了FQT梯度是QAT梯度的无偏估计,并进一步分析了梯度量化对估计方差的影响。基于上述理论发现,我们设计了两种新型梯度量化器,实验表明其方差显著低于现有的逐张量(per-tensor)量化方法。在ImageNet数据集上训练ResNet-50模型时,我们提出的5比特块Householder量化器仅带来0.5%的验证精度损失,性能与现有的INT8基准相当,展现出优异的量化效率与模型精度平衡能力。