17 天前

DocOIE:面向开放信息抽取的文档级上下文感知数据集

Kuicai Dong, Yilin Zhao, Aixin Sun, Jung-Jae Kim, Xiaoli Li
DocOIE:面向开放信息抽取的文档级上下文感知数据集
摘要

开放信息抽取(Open Information Extraction, OpenIE)旨在从句子中提取结构化的语义三元组(主语,关系,宾语),在众多下游自然语言处理任务中发挥着关键作用。现有的解决方案通常在句子级别进行信息抽取,而未引入任何额外的上下文信息。然而,在实际应用中,句子往往作为文档的一部分存在,而非孤立个体;要准确理解其含义,通常需要结合其周围的上下文信息。由于目前尚无面向文档级上下文感知的OpenIE数据集,我们手动标注了来自80篇文档的800个句子,涵盖医疗健康与交通运输两个领域,构建了一个名为DocOIE的评估数据集。此外,我们提出了一种新型的文档级上下文感知OpenIE模型——DocIE。基于该模型的实验结果表明,引入文档级上下文信息有助于显著提升OpenIE的性能。目前,DocOIE数据集与DocIE模型均已公开发布,供学术界和工业界使用。