ClusterEA: スケーラブルなエンティティアライメントを実現する確率的トレーニングと正規化されたミニバッチ類似度

エンティティアライメント(EA)は、異なる知識グラフ(KGs)間で同等のエンティティを見つけることを目指しています。近年、埋め込みベースの手法がEAタスクを主導してきました。これらの手法は、埋め込みベクトルの幾何学的特性から生じる問題、つまりハブ性と孤立性に直面しています。これらの幾何学的問題を解決するために、多くの正規化手法がEAに採用されてきました。しかし、KGsの規模が増大することで、EAモデルが正規化プロセスを採用することが難しくなり、実世界での応用が制限されるようになりました。この課題に対処するため、我々はClusterEAという一般的なフレームワークを提案します。ClusterEAは、ミニバッチ内の高いエンティティ相当率を利用して正規化手法を活用し、EAモデルのスケーラビリティと結果を向上させる能力を持っています。ClusterEAには3つのコンポーネントがあり、大規模KG間でのエンティティアライメントを実現します。これらは確率的な訓練方法、ClusterSampler、およびSparseFusionです。まず、ClusterEAは大規模な双子ネットワークGNN(Siamese GNN)を確率的に訓練してエンティティ埋め込みを生成します。次に、生成された埋め込みに基づいて新しいクラスタサンプリング戦略であるClusterSamplerが提案され、高重複度のミニバッチを選択します。最後に、ClusterEAはSparseFusionを取り入れます。SparseFusionは局所的類似度と全局所的類似度を正規化し、すべての類似度行列を融合させて最終的な類似度行列を得ます。実際のデータセットを使用した広範な実験により、提案されたフレームワークについて詳細な洞察が得られました。これらの実験結果は、ClusterEAが既存の最先端スケーラブルEAフレームワークに対して最大8倍のHits@1性能向上を達成できる可能性があることを示唆しています。