
本文提出了一种新的预训练语言模型——DeBERTaV3,该模型通过将原始DeBERTa模型中的掩码语言建模(Masked Language Modeling, MLM)替换为更具样本效率的替换标记检测(Replaced Token Detection, RTD)任务,从而在性能上实现了显著提升。我们的分析表明,ELECTRA模型中采用的原始嵌入共享机制会损害训练效率与模型性能,其根本原因在于判别器与生成器的训练损失在优化过程中对词元嵌入施加了相反方向的更新,导致“拉锯战”(tug-of-war)动态现象。为此,我们提出了一种新型的梯度解耦嵌入共享方法,有效避免了上述拉锯战效应,从而在提升训练效率的同时,显著增强了预训练模型的质量。我们在与原始DeBERTa相同的训练设置下对DeBERTaV3进行了预训练,结果表明其在广泛的下游自然语言理解(Natural Language Understanding, NLU)任务中表现出色。以包含八个任务的GLUE基准为例,DeBERTaV3 Large模型取得了91.37%的平均得分,相比DeBERTa提升了1.37%,相比ELECTRA提升了1.91%,在同类结构模型中创下新的最先进(State-of-the-Art, SOTA)纪录。此外,我们还训练了一个多语言版本的模型——mDeBERTa,并观察到其在多语言任务上的性能提升幅度显著超过英语单语模型。例如,mDeBERTa Base在XNLI基准上的零样本跨语言准确率达到79.8%,相比XLM-R Base提升了3.6%,同样刷新了该任务的SOTA纪录。我们已将预训练模型及推理代码公开发布于GitHub:https://github.com/microsoft/DeBERTa,供学术界与工业界自由使用与研究。