
摘要
大量研究致力于多语言知识图谱(Knowledge Graph, KG)嵌入方法,以解决实体对齐任务,该任务旨在匹配不同语言知识图谱中指代同一现实世界对象的实体。然而,此类方法通常受限于知识图谱之间提供的初始对齐种子数据不足。为此,本文提出一种偶然监督模型 JEANS,该模型在统一的嵌入空间中联合表示多语言知识图谱与文本语料,并利用文本中蕴含的偶然监督信号来提升实体对齐效果。JEANS 首先通过实体定位(entity grounding)过程,将每个知识图谱与对应的单语文本语料进行融合。随后,模型执行两个并行的学习过程:(i)嵌入学习过程,将每种语言的知识图谱与文本编码至同一嵌入空间;(ii)基于自学习的对齐学习过程,通过迭代方式推导出嵌入表示之间的实体对齐与词素(lexeme)对齐。在基准数据集上的实验结果表明,JEANS 在利用偶然监督信号的情况下,显著提升了实体对齐性能,且显著优于仅依赖知识图谱内部信息的当前最优方法。