
本论文聚焦于利用无监督的原始文本数据改进自然语言模型的预训练过程,旨在提升模型的效率并使其更契合下游应用需求。在第一部分中,我们提出了三种替代BERT的掩码语言建模(Masked Language Modeling, MLM)的预训练目标,分别为随机词元替换(Random Token Substitution, RTS)、基于聚类的随机词元替换(Cluster-based Random Token Substitution, C-RTS)以及交换语言建模(Swapped Language Modeling, SLM)。这些目标均采用词元交换而非掩码的方式进行建模,其中RTS与C-RTS旨在预测词元的原始性,而SLM则致力于恢复原始词元的值。实验结果表明,RTS与C-RTS在显著缩短预训练时间的同时,仍能保持与MLM相当的性能表现。令人意外的是,尽管在相同的计算资源下进行训练,SLM在部分任务上的表现甚至优于MLM。在第二部分中,我们提出了一系列自监督预训练任务,其结构设计与下游应用任务高度对齐,从而有效降低对标注数据的依赖。我们利用维基百科、CC-News等大规模语料库,训练模型以多种方式识别文本片段是否源自同一段落或文档。通过在现有模型(如RoBERTa、ELECTRA、DeBERTa、BART和T5)的基础上进行持续预训练,我们在事实验证(Fact Verification)、答案句子选择(Answer Sentence Selection)以及文本摘要(Summarization)等任务上均取得了显著的性能提升,尤其在标注数据有限的情况下优势更为突出。所提出的预训练目标在多个基准数据集上取得了当前最优(state-of-the-art)结果,涵盖FEVER(开发集)、ASNQ、WikiQA和TREC-QA等,并有效提升了摘要生成的质量。尤为重要的是,这些方法可无缝集成至其他现有技术中,无需修改Transformer模型的内部结构,因而具有高度的通用性,适用于多种自然语言处理应用场景。