16 天前

通过全面探索的掩码语言模型提升自监督预训练

Mingzhi Zheng, Dinghan Shen, Yelong Shen, Weizhu Chen, Lin Xiao
通过全面探索的掩码语言模型提升自监督预训练
摘要

掩码语言模型(Masked Language Model, MLM)框架已被广泛应用于自监督语言预训练。本文指出,MLM中随机采样的掩码策略会导致梯度方差过大,从而影响训练稳定性与效率。为此,我们从理论上量化了梯度方差,通过分析两个不同掩码之间的汉明距离(Hamming distance)与梯度协方差之间的关联,揭示了随机掩码带来的高方差问题。为降低掩码采样引起的梯度方差,我们提出一种完全探索式掩码策略(fully-explored masking strategy):将文本序列划分为若干个非重叠的段落,训练时仅对某一固定段落内的词元(tokens)进行掩码。从理论层面,我们证明了该新型掩码策略所生成的梯度具有更小的方差,有助于实现更高效的自监督训练。我们在持续预训练(continual pre-training)和从零开始的通用预训练(general pre-training from scratch)任务上开展了大量实验。实验结果表明,该新策略在各项指标上均能持续优于标准的随机掩码方法。进一步的效率分析与消融实验也充分验证了该完全探索式掩码策略在MLM框架下的显著优势。