2 个月前

CDLM：跨文档语言模型

Avi Caciularu; Arman Cohan; Iz Beltagy; Matthew E. Peters; Arie Cattan; Ido Dagan

摘要

我们介绍了一种新的预训练方法，专门用于多文档语言建模，该方法在掩码语言模型的自监督目标中融入了两个关键思想。首先，我们不再孤立地考虑单个文档，而是对多个相关文档的集合进行预训练，鼓励模型学习跨文档的关系。其次，我们在最近的长距离变换器基础上进行了改进，引入了动态全局注意力机制（dynamic global attention），该机制可以访问整个输入以预测被掩码的标记。我们发布了CDLM（Cross-Document Language Model），这是一种新的通用语言模型，适用于多文档场景，并且可以轻松应用于下游任务。我们的详细分析表明，这两个思想对于CDLM的成功至关重要，并且协同作用，在多个多文本任务上取得了新的最先进成果。代码和模型可在https://github.com/aviclu/CDLM 获取。