
摘要
传统的实体链接方法通常分为两个步骤:首先在给定文档中识别实体提及(mentions),然后推断这些提及所对应的知识库中的真实实体。这一方法的一个显著局限在于,它要求在未知实体的情况下先识别提及,这在逻辑上不够自然,且实现难度较高。为此,我们提出了一种新模型——EntQA(Entity linking as Question Answering,即以问答方式实现实体链接),该模型克服了上述局限性。EntQA 的核心思想是:首先通过一个高效的检索模块生成候选实体,随后利用一个强大的阅读理解模块,对文档进行深入分析,以定位每个候选实体在文本中的具体提及。该方法融合了实体链接与开放域问答领域的最新进展,并充分利用预训练模型在密集实体检索与阅读理解方面的优势。与以往工作不同,EntQA 不依赖于提及-候选实体词典,也无需大规模弱监督数据。实验结果表明,EntQA 在 GERBIL 基准测试平台上取得了优异的性能,展现出强大的实体链接能力。