9 天前
UniLMv2:用于统一语言模型预训练的伪掩码语言模型
Hangbo Bao, Li Dong, Furu Wei, Wenhui Wang, Nan Yang, Xiaodong Liu, Yu Wang, Songhao Piao, Jianfeng Gao, Ming Zhou, Hsiao-Wuen Hon

摘要
我们提出一种新颖的训练方法——伪掩码语言模型(Pseudo-Masked Language Model, PMLM),用于统一预训练一个既适用于自编码(autoencoding)任务又适用于部分自回归(partially autoregressive)语言建模任务的通用语言模型。给定包含掩码标记的输入文本,该方法利用传统掩码通过自编码机制学习被破坏标记与上下文之间的相互关系,同时借助伪掩码通过部分自回归建模学习掩码片段内部的内在关联。通过精心设计的位置编码与自注意力掩码机制,模型能够复用上下文编码,从而避免冗余计算。此外,用于自编码的常规掩码提供了全局掩码信息,使得在部分自回归语言建模过程中,所有位置编码均可被访问。值得注意的是,这两种预训练任务分别使统一语言模型同时具备双向编码器和序列到序列解码器的能力。实验结果表明,基于PMLM方法预训练的统一语言模型在多个广泛使用的基准测试中,于自然语言理解与生成任务上均取得了新的最先进性能。