
摘要
将大型语言模型(LLMs)的权重从16位量化为更低的位宽,是将大规模变压器模型部署到更经济的加速器上的标准方法。GPTQ作为一种在LLM规模下进行单次训练后量化的标准方法,已广泛被采用。然而,其内部机制被描述为一系列临时性的代数更新步骤,这些步骤掩盖了任何几何意义或最坏情况下的保证。在本工作中,我们证明,当线性层的量化过程以“从后往前”(即从最后一个维度到第一个维度)的方式执行时,GPTQ在数学上等价于经典的格点最近向量问题(CVP)中Babai的最近平面算法(nearest plane algorithm),该算法基于该层输入的Hessian矩阵定义的格点结构。这一等价性建立在复杂的数学论证基础上,并带来了两个分析性的结果:(i) GPTQ中的误差传播步骤获得了直观的几何解释;(ii) 在不进行截断(no-clipping)的条件下,GPTQ继承了Babai算法的误差上界。综上所述,这些结果为GPTQ提供了坚实的理论基础,并为将几十年来在格算法领域的进展引入到未来针对十亿参数模型的量化算法设计中打开了新的大门。