
摘要
关系抽取(Relation Extraction, RE)是自然语言处理中一项重要任务,旨在预测两个给定实体之间的语义关系。要实现优异的模型性能,对上下文信息的深入理解至关重要。在各类上下文信息中,自动生成的句法信息(即词语之间的依存关系)已被证明对关系抽取具有显著作用。然而,现有大多数研究需要对现有基线架构进行修改(例如,在编码器之上添加新的组件,如图卷积网络GCN),才能有效利用句法信息。为提供一种替代方案,本文提出通过依存掩码(dependency masking)在自解析数据上训练一种句法诱导编码器(syntax-induced encoder),以利用句法信息提升关系抽取性能。具体而言,该句法诱导编码器通过恢复一阶、二阶和三阶依存连接及其类型进行训练,这一方法与现有研究存在显著差异。以往的方法通常通过预测依存路径上的上下文词来训练语言模型或词嵌入,而本文则聚焦于恢复依存结构本身。在两个英文基准数据集——ACE2005EN和SemEval 2010 Task 8上的实验结果表明,所提出方法在关系抽取任务中具有显著有效性,其性能超越了多个强基线模型,并在两个数据集上均取得了当前最优(state-of-the-art)结果。