摘要
多模态知识图谱(MMKGs)的迅猛发展,催生了对多模态实体对齐技术的迫切需求,这类技术能够促进来自不同数据源的多个MMKG的融合与集成。然而,以往的方法仅通过启发式方式合并单模态特征嵌入来利用多模态知识,导致多模态知识中蕴含的跨模态线索被严重忽视。为解决这一问题,本文提出一种新型的多模态孪生网络用于实体对齐(Multi-modal Siamese Network for Entity Alignment, MSNEA),旨在实现不同MMKG之间实体的有效对齐,并充分挖掘多模态知识中的跨模态效应。具体而言,我们首先设计了一个多模态知识嵌入模块,用于提取实体的视觉、关系和属性特征,从而为不同MMKG生成全面的实体表示。在此过程中,我们引入跨模态增强机制,将视觉特征用于引导关系特征的学习,并自适应地分配注意力权重,以捕捉对对齐任务具有价值的属性信息。随后,我们构建了一个多模态对比学习模块,实现跨模态增强融合,同时有效抑制弱模态带来的过度影响。在两个公开数据集上的实验结果表明,所提出的MSNEA在性能上显著优于现有主流基线方法,达到了当前最优水平。