2 个月前

CDLM:跨文档语言模型

Avi Caciularu; Arman Cohan; Iz Beltagy; Matthew E. Peters; Arie Cattan; Ido Dagan
CDLM:跨文档语言模型
摘要

我们介绍了一种新的预训练方法,专门用于多文档语言建模,该方法在掩码语言模型的自监督目标中融入了两个关键思想。首先,我们不再孤立地考虑单个文档,而是对多个相关文档的集合进行预训练,鼓励模型学习跨文档的关系。其次,我们在最近的长距离变换器基础上进行了改进,引入了动态全局注意力机制(dynamic global attention),该机制可以访问整个输入以预测被掩码的标记。我们发布了CDLM(Cross-Document Language Model),这是一种新的通用语言模型,适用于多文档场景,并且可以轻松应用于下游任务。我们的详细分析表明,这两个思想对于CDLM的成功至关重要,并且协同作用,在多个多文本任务上取得了新的最先进成果。代码和模型可在https://github.com/aviclu/CDLM 获取。

CDLM:跨文档语言模型 | 最新论文 | HyperAI超神经