
摘要
本文研究了知识图谱(Knowledge Graphs, KGs)中实体对齐的新问题设定。由于不同知识图谱所包含的实体集合各不相同,可能存在无法在两者间找到对应关系的实体,从而产生“悬挂实体”(dangling entities)问题。作为对该问题的首次探索,本文构建了一个新的数据集,并设计了一种多任务学习框架,用于同时实现实体对齐与悬挂实体检测。该框架能够对检测出的悬挂实体选择不进行对齐预测,从而避免错误匹配。本文提出了三种基于最近邻距离分布的悬挂实体检测方法,分别为:最近邻分类法、边缘排序法(marginal ranking)以及背景排序法(background ranking)。在检测并剔除悬挂实体后,框架中集成的实体对齐模型能够为剩余实体提供更加稳健的对齐结果。大量实验与深入分析验证了所提框架的有效性。进一步研究发现,悬挂实体检测模块还能反向促进对齐学习过程,提升最终的整体性能。本文所贡献的数据资源已公开发布,旨在推动该领域的后续研究。