
摘要
语言模型(LM)预训练可以从文本语料库中学习各种知识,从而帮助下游任务。然而,现有的方法如BERT仅对单个文档进行建模,无法捕捉跨文档的依赖关系或知识。在本研究中,我们提出了一种新的语言模型预训练方法——LinkBERT,该方法利用了文档之间的链接(例如超链接)。给定一个文本语料库,我们将其视为一个文档图,并通过将链接的文档置于同一上下文中来创建语言模型输入。随后,我们使用两个联合自监督目标对语言模型进行预训练:掩码语言建模和我们新提出的文档关系预测。实验结果表明,LinkBERT在两个领域的多种下游任务上均优于BERT:通用领域(在包含超链接的维基百科上预训练)和生物医学领域(在包含引用链接的PubMed上预训练)。LinkBERT特别适用于多跳推理和少样本问答任务,在HotpotQA和TriviaQA数据集上取得了5%的绝对性能提升;我们的生物医学LinkBERT在多个BioNLP任务上也达到了新的最佳水平,在BioASQ和USMLE数据集上的性能提升了7%。我们发布了预训练模型LinkBERT和BioLinkBERT,以及相关代码和数据,详情见https://github.com/michiyasunaga/LinkBERT。