2 个月前

DocRED:大规模文档级关系抽取数据集

Yuan Yao; Deming Ye; Peng Li; Xu Han; Yankai Lin; Zhenghao Liu; Zhiyuan Liu; Lixin Huang; Jie Zhou; Maosong Sun
DocRED:大规模文档级关系抽取数据集
摘要

文档中的多个实体通常表现出复杂的跨句关系,而现有的关系抽取(RE)方法通常专注于从单个实体对中提取句内关系,难以有效处理这些复杂关系。为了加速文档级关系抽取的研究,我们引入了DocRED,这是一个从维基百科和维基数据构建的新数据集,具有以下三个特点:(1) DocRED同时标注了命名实体和关系,是目前最大的从纯文本中进行文档级关系抽取的人工标注数据集;(2) DocRED要求在文档中阅读多个句子以提取实体并综合文档的所有信息来推断它们之间的关系;(3) 除了人工标注的数据外,我们还提供了大规模的远监督数据,这使得DocRED可以应用于有监督和弱监督场景。为了验证文档级关系抽取的挑战性,我们实现了最近的几种最先进的RE方法,并在DocRED上对这些方法进行了全面评估。实证结果表明,现有的RE方法在处理DocRED时面临较大挑战,这表明文档级关系抽取仍然是一个开放问题,需要进一步的努力。基于详细的实验分析,我们讨论了未来研究的多个有前景的方向。