
摘要
语言模型(Language Models, LMs)在自然语言处理(Natural Language Processing, NLP)的快速发展中发挥了关键作用。本文研究了语言模型的持续预训练,特别是持续领域自适应预训练(Continual Domain-Adaptive Pre-training,简称持续DAP训练)。已有研究表明,通过使用特定领域的语料库对预训练语言模型进行进一步预训练,能够有效提升其在该领域下游任务中的性能表现。本文提出一种新方法,通过一系列未标注的领域语料,实现对语言模型的持续DAP训练,从而使其逐步适应多个不同领域,进而提升在各领域下游任务上的表现。本文方法的核心创新在于引入了一种软掩码机制(soft-masking mechanism),该机制可直接调控语言模型参数的更新过程,从而在保持模型稳定性的同时实现有效学习。此外,本文还提出一种新颖的代理机制(proxy mechanism),用于保护原始预训练模型中蕴含的通用知识,防止其在持续学习过程中被过度覆盖。同时,该方法通过对比先前已学习领域知识(包括预训练模型中的通用知识)与当前完整网络所学知识的表征,实现多阶段知识的有效融合与整合。实验结果表明,该方法不仅有效缓解了持续学习中的灾难性遗忘问题,还实现了知识的正向迁移,显著提升了语言模型在多个领域下游任务上的性能。大量实证评估验证了所提方法的有效性与优越性。