
近年来,预训练神经语言模型的进展显著提升了多项自然语言处理(NLP)任务的性能。本文提出一种新型模型架构——DeBERTa(解码增强型BERT,采用解耦注意力机制),通过引入两项创新技术,进一步改进了BERT与RoBERTa模型。第一项是解耦注意力机制(disentangled attention),该机制将每个词用两个向量表示,分别编码其语义内容与位置信息,并分别使用解耦的矩阵计算词与词之间基于内容和相对位置的注意力权重。第二项是增强型掩码解码器(enhanced mask decoder),在解码层中引入绝对位置信息,以提升模型在预训练阶段对被掩码词的预测能力。此外,本文还提出一种新的虚拟对抗训练方法(virtual adversarial training),用于微调阶段,以增强模型的泛化能力。实验结果表明,上述技术显著提升了模型预训练的效率,并在自然语言理解(NLU)与自然语言生成(NLG)等下游任务中均取得显著性能提升。与RoBERTa-Large相比,仅使用一半训练数据训练的DeBERTa模型在多项NLP任务上表现更优:在MNLI任务上提升0.9%(90.2% vs. 91.1%),在SQuAD v2.0上提升2.3%(88.4% vs. 90.7%),在RACE任务上提升3.6%(83.2% vs. 86.8%)。尤为突出的是,本文进一步扩展了DeBERTa模型,训练出一个包含48个Transformer层、参数量达15亿的更大版本。该模型在SuperGLUE基准测试中首次以宏平均得分(macro-average score)超越人类表现(89.9 vs. 89.8)。截至2021年1月6日,集成版DeBERTa模型位居SuperGLUE排行榜首位,其性能显著优于人类基线(90.3 vs. 89.8),标志着自然语言理解领域的重要突破。