2 个月前

端到端神经实体链接

Nikolaos Kolitsas; Octavian-Eugen Ganea; Thomas Hofmann
端到端神经实体链接
摘要

实体链接(Entity Linking, EL)是语义文本理解和信息提取中的一个重要任务。现有的流行方法通常分别处理EL的提及检测(Mention Detection, MD)和实体消歧(Entity Disambiguation, ED)两个阶段,而没有充分利用它们之间的相互依赖关系。本文提出了一种首个神经端到端EL系统,该系统能够在文本文档中联合发现并链接实体。主要思想是将所有可能的片段视为潜在提及,并学习这些片段候选实体的上下文相似度分数,这些分数对MD和ED决策都有帮助。关键组件包括上下文感知的提及嵌入、实体嵌入以及一个概率性的提及-实体映射,而无需其他人工设计的特征。实验结果表明,当有足够的训练数据时,我们的端到端方法在Gerbil平台上的表现显著优于流行的系统。相反,如果测试数据集的标注规范与训练集不同(例如查询/推文与新闻文档),我们的ED模型与传统命名实体识别(NER)系统的结合能够提供最佳或次佳的EL准确性。