
摘要
基于Transformer的语言模型在自然语言处理的诸多应用中得到了广泛使用。然而,这类模型在计算效率上存在不足,且部署难度较大。近年来,为提升大型Transformer模型在目标硬件上的实现效率,已有大量压缩算法被提出。本文提出一种新方法,通过融合权重剪枝(weight pruning)与模型蒸馏(model distillation)技术,训练稀疏的预训练Transformer语言模型。这些稀疏的预训练模型在保持稀疏结构的同时,可广泛应用于各类迁移学习任务。我们以三种经典架构为例,分别构建了稀疏的预训练BERT-Base、BERT-Large与DistilBERT模型。实验表明,所训练的压缩稀疏模型在迁移至五个不同的下游自然语言处理任务时,仅产生极小的精度损失。此外,我们进一步采用感知量化训练(quantization-aware training)技术,将稀疏模型的权重压缩至8位精度。例如,在SQuADv1.1数据集上对稀疏预训练BERT-Large进行微调并量化至8位后,编码器部分实现了高达40倍的压缩比,且精度损失低于1%。据我们所知,该结果在BERT-Base、BERT-Large与DistilBERT三类模型中均达到了当前最优的压缩率与精度平衡。