17 天前
Q-BERT:基于海森矩阵的BERT超低精度量化
Sheng Shen, Zhen Dong, Jiayu Ye, Linjian Ma, Zhewei Yao, Amir Gholami, Michael W. Mahoney, Kurt Keutzer

摘要
基于Transformer的架构已成为自然语言处理(Natural Language Processing, NLP)各类任务中的事实标准模型。特别是基于BERT的模型在GLUE基准任务、CoNLL-03以及SQuAD等任务上取得了显著的性能提升。然而,BERT类模型存在内存占用高和推理延迟大的问题,导致其在资源受限环境中的部署面临严峻挑战。在本研究中,我们基于二阶Hessian信息对微调后的BERT模型进行了深入分析,并利用分析结果提出了一种全新的超低精度量化方法,用于压缩BERT模型。具体而言,我们提出了一种新型的分组量化(group-wise quantization)方案,并结合基于Hessian的混合精度(mix-precision)策略,进一步实现模型压缩。我们在BERT下游任务——SST-2、MNLI、CoNLL-03和SQuAD上对所提方法进行了全面测试。实验结果表明,即使在低至2比特的超低精度量化条件下,模型性能仍可保持与基线模型相当,最大性能下降不超过2.3%;同时,模型参数量可实现最高达13倍的压缩,嵌入表(embedding table)及激活值(activations)的存储空间也分别实现了最高4倍的压缩。在所有任务中,我们在SQuAD任务上观察到最高的性能损失。通过深入分析Hessian信息并结合可视化手段,我们发现这一现象与当前BERT的微调策略在SQuAD任务上未能充分收敛密切相关。该发现揭示了现有训练范式在特定任务上的局限性,也为未来模型优化提供了重要启示。