
摘要
现代神经网络开放信息抽取(OpenIE)系统及其评估基准的一个主要缺陷在于,它们优先追求抽取结果的高覆盖率,而忽视了抽取成分的紧凑性。这一问题严重限制了OpenIE抽取结果在众多下游任务中的实用性。若能提升抽取结果的紧凑性并实现成分共享,将显著增强其应用价值。为此,本文研究了基于神经网络方法识别紧凑型抽取结果的问题。我们提出了CompactIE——一种新型的OpenIE系统,采用创新的流水线式架构,生成具有重叠成分的紧凑型抽取结果:首先识别抽取成分,随后将其关联以构建完整的抽取项。我们在通过处理现有基准数据集获得的紧凑型抽取结果上训练该系统。在CaRB和Wire57数据集上的实验表明,与以往系统相比,CompactIE能够发现1.5至2倍更多的紧凑型抽取结果,同时保持高精度,从而在OpenIE领域确立了新的最先进性能。