2 个月前

PERT：使用排列语言模型预训练BERT

Yiming Cui; Ziqing Yang; Ting Liu

摘要

预训练语言模型（PLMs）由于其在大规模语料库上训练的强大文本表示能力，已在各种自然语言处理（NLP）任务中得到广泛应用。本文提出了一种新的预训练语言模型，称为PERT，用于自然语言理解（NLU）。PERT是一种自编码模型（类似于BERT），通过排列语言模型（PerLM）进行训练。所提出的PerLM的公式非常直接：我们对输入文本的一部分进行排列，训练目标是预测原始标记的位置。此外，我们还应用了全词掩码和N-gram掩码以提高PERT的性能。我们在中文和英文的自然语言理解基准数据集上进行了广泛的实验。实验结果表明，PERT在某些任务上相比多种可比基线模型有所改进，而在其他任务上则没有明显提升。这些结果表明，开发更多样化的预训练任务是可行的，而不仅仅是掩码语言模型的变体。为了更好地理解PERT，我们进行了几项定量研究，这可能对未来设计预训练语言模型有所帮助。资源链接：https://github.com/ymcui/PERT