
摘要
近年来,基于预训练Transformer架构的语言模型(如BERT和GPT)在众多自然语言处理(NLP)任务中取得了显著进展。然而,这些模型通常包含海量参数。随着GPT-2、Megatron等更大、更精确模型的出现,预训练Transformer模型呈现出持续扩大的趋势。然而,在生产环境中部署此类大型模型是一项复杂任务,需要消耗大量计算资源、内存和电力。本文提出了一种在BERT微调阶段进行量化感知训练(quantization-aware training)的方法,能够在仅造成极小精度损失的前提下,将BERT模型压缩至原来的1/4大小。此外,经过优化以支持8位整数(8-bit Integer)硬件的量化模型,还可显著提升推理速度。