
摘要
开放信息抽取(Open IE)是一项具有挑战性的任务,尤其是由于其脆弱的数据基础。大多数开放信息抽取系统必须在自动构建的语料库上进行训练,并在不准确的测试集上进行评估。在这项工作中,我们首先从训练集和测试集两方面减轻了这一难题。对于前者,我们提出了一种改进的模型设计,以更充分地利用训练数据集。对于后者,我们根据一系列语言学观察和分析,重新标注了一个基准测试集(Re-OIE6)。随后,我们引入了一种跨度模型来替代先前用于n元开放信息抽取的序列标注方法。我们的新模型在两个基准评估数据集上均取得了最新的最佳性能。