6 个月前

摘要

在多源知识图谱（Knowledge Graph, KG）中寻找等价实体是实现知识图谱集成的关键步骤，也称为实体对齐（Entity Alignment, EA）。然而，现有大多数EA方法在效率和可扩展性方面表现不佳。近期一项综述指出，部分方法处理包含20万节点的DWY100K数据集时，甚至需要数天时间。我们认为，过度复杂的图编码器结构以及低效的负样本采样策略是导致这一问题的两大主要原因。本文提出一种新型知识图谱编码器——双注意力匹配网络（Dual Attention Matching Network, Dual-AMN），该模型不仅能智能地建模图内与图间信息，还能显著降低计算复杂度。此外，我们设计了归一化难样本挖掘损失函数（Normalized Hard Sample Mining Loss），以更平滑地选择难负样本，有效缓解损失函数的偏移问题。在多个广泛使用的公开数据集上的实验结果表明，所提方法在保持高精度的同时实现了卓越的效率。在DWY100K数据集上，整个运行过程仅需1,100秒，相较之前的工作至少提升10倍以上。此外，该方法在所有测试数据集上的性能均优于现有工作，Hits@1与MRR指标分别提升了6%至13%。

源 PDF