
摘要
预训练语言模型(PLMs)由于其在大规模语料库上训练的强大文本表示能力,已在各种自然语言处理(NLP)任务中得到广泛应用。本文提出了一种新的预训练语言模型,称为PERT,用于自然语言理解(NLU)。PERT是一种自编码模型(类似于BERT),通过排列语言模型(PerLM)进行训练。所提出的PerLM的公式非常直接:我们对输入文本的一部分进行排列,训练目标是预测原始标记的位置。此外,我们还应用了全词掩码和N-gram掩码以提高PERT的性能。我们在中文和英文的自然语言理解基准数据集上进行了广泛的实验。实验结果表明,PERT在某些任务上相比多种可比基线模型有所改进,而在其他任务上则没有明显提升。这些结果表明,开发更多样化的预训练任务是可行的,而不仅仅是掩码语言模型的变体。为了更好地理解PERT,我们进行了几项定量研究,这可能对未来设计预训练语言模型有所帮助。资源链接:https://github.com/ymcui/PERT