2 个月前
ClusterEA:基于随机训练和归一化小批量相似性的可扩展实体对齐方法
Yunjun Gao; Xiaoze Liu; Junyang Wu; Tianyi Li; Pengfei Wang; Lu Chen

摘要
实体对齐(Entity Alignment, EA)旨在在不同的知识图谱(Knowledge Graphs, KGs)中找到等价的实体。近年来,基于嵌入的方法在实体对齐任务中占据了主导地位。然而,这些方法面临着由嵌入向量的几何特性引起的问题,包括中心性和孤立性。为了解决这些几何问题,许多归一化方法已被应用于实体对齐。然而,随着知识图谱规模的不断增大,归一化过程变得难以实施,从而限制了实体对齐模型在实际应用中的使用。为了应对这一挑战,我们提出了ClusterEA,这是一种通用框架,通过在具有高实体等价率的小批量数据上利用归一化方法来扩展实体对齐模型并提升其性能。ClusterEA 包含三个组件以实现大规模知识图谱之间的实体对齐,分别是随机训练、ClusterSampler 和 SparseFusion。首先,ClusterEA 以随机方式训练一个大规模的孪生图神经网络(Siamese GNN),生成实体嵌入。在此基础上,提出了一种新颖的 ClusterSampler 策略,用于采样高度重叠的小批量数据。最后,ClusterEA 引入了 SparseFusion 方法,该方法通过对局部和全局相似性进行归一化处理,并融合所有相似性矩阵以获得最终的相似性矩阵。广泛的实验表明,在真实数据集上的 EA 基准测试中,所提出的框架不仅提供了深入的见解,而且在 Hits@1 指标上最多可比最先进的可扩展实体对齐框架高出 8 倍。