
知识图谱补全(Knowledge Graph Completion, KGC)旨在预测不完整知识图谱中缺失的事实。目前绝大多数现有的KGC研究仅适用于单一知识图谱且局限于单一语言。然而,不同语言的使用者通常会维护各自语言下的独立知识图谱,且单个知识图谱本身难以做到完全覆盖。此外,这些知识图谱中的常见实体或关系往往具有不同的表面形式和标识符(ID),从而导致ID的大量冗余与扩散。为解决这一问题,实体对齐(Entity Alignment, EA)和关系对齐(Relation Alignment, RA)任务通过识别不同知识图谱中表示同一实体(或关系)的ID对,实现跨图谱的语义统一。这种对齐关系还可进一步辅助缺失事实的预测,因为一个知识图谱中的知识很可能有助于另一个知识图谱的补全。同时,高置信度的预测结果也能为对齐任务提供有价值的补充信息。针对上述挑战,本文提出了一项新任务:联合训练多语言KGC、关系对齐与实体对齐模型。为此,我们提出了ALIGNKGC框架,该框架利用少量种子对齐信息,联合优化KGC、EA与RA三类损失函数。ALIGNKGC的一个关键创新在于,基于关系的(主语,宾语)集合签名,引入了一种基于嵌入的、非对称重叠的软性度量机制,该机制有助于更准确地预测那些与其它关系等价或蕴含于其它关系中的关系。在五种语言的DBpedia数据集上进行的大量实验表明,联合训练显著提升了所有任务的性能。与当前最先进的单语言KGC补全模型相比,ALIGNKGC在各单语言知识图谱上的MRR(Mean Reciprocal Rank)指标平均提升10%至32%。此外,相较于未进行对齐、直接合并所有事实的原始知识图谱上的基础补全模型,ALIGNKGC在EA与RA任务上也取得了可观的性能增益,充分验证了联合训练在多语言知识图谱对齐与补全任务中的重要价值。