
摘要
远程监督(Distant Supervision, DS)是一种有前景的关系抽取方法,但通常会受到标签噪声问题的影响。传统的DS方法通常将实体对表示为一组句子,并使用多实例学习技术来去噪标签。然而,基于包的范式无法充分利用句子间层面和实体层面的证据进行关系抽取,且其去噪算法往往专门化且复杂。本文提出了一种新的DS范式——文档级远程监督,该方法将关系抽取建模为基于文档的机器阅读理解(Machine Reading Comprehension, MRC)任务。通过重新组织有关某个实体的所有句子为一个文档,并通过关系特定的问题查询该文档来抽取关系,文档级DS范式可以同时编码并利用所有句子层面、句子间层面和实体层面的证据。此外,我们设计了一种新的损失函数——DSLoss(远程监督损失),该函数能够仅使用$\langle$文档, 问题, 答案$\rangle$三元组有效训练MRC模型,从而从本质上解决标签噪声问题。实验结果表明,我们的方法在远程监督性能方面达到了新的最先进水平。