ClusterEA : Alignement d'entités évolutif avec entraînement stochastique et similarités de mini-lot normalisées

L'alignement d'entités (AE) vise à trouver des entités équivalentes dans différents graphes de connaissances (GC). Les approches basées sur l'embedding ont dominé la tâche d'AE ces dernières années. Ces méthodes sont confrontées à des problèmes issus des propriétés géométriques des vecteurs d'embedding, notamment le phénomène de centralité et l'isolement. Pour résoudre ces problèmes géométriques, de nombreuses techniques de normalisation ont été adoptées pour l'AE. Cependant, l'augmentation croissante de l'échelle des GC rend difficile l'adoption de processus de normalisation par les modèles d'AE, limitant ainsi leur utilisation dans les applications réelles. Pour relever ce défi, nous présentons ClusterEA, un cadre général capable d'évoluter les modèles d'AE et d'améliorer leurs résultats en utilisant des méthodes de normalisation sur des mini-lots avec un taux élevé d'équivalence d'entités. ClusterEA comprend trois composants pour aligner les entités entre GCs à grande échelle : une formation stochastique, ClusterSampler et SparseFusion. Il commence par former un grand réseau neuronal graphique jumeau (Siamese GNN) pour AE de manière stochastique afin de produire des embeddings d'entités. Sur la base de ces embeddings, une nouvelle stratégie ClusterSampler est proposée pour échantillonner des mini-lots fortement chevauchants. Enfin, ClusterEA intègre SparseFusion, qui normalise la similarité locale et globale avant de fusionner toutes les matrices de similarité pour obtenir la matrice de similarité finale. Des expériences étendues sur des jeux de données réels dans des benchmarks d'AE apportent des éclairages sur le cadre proposé et suggèrent qu'il est capable de surpasser le cadre d'AE évolutif le plus avancé actuellement jusqu'à 8 fois en termes de Hits@1.