MEAformer : Transformer d'alignement d'entités multi-modales pour la modalité hybride méta

L'alignement d'entités multi-modales (MMEA) vise à découvrir des entités identiques dans différents graphes de connaissances (KGs), dont les entités sont associées à des images pertinentes. Cependant, les algorithmes MMEA actuels s'appuient sur des stratégies de fusion modale au niveau du graphe de connaissances pour la représentation multi-modale des entités, ce qui ignore les variations des préférences modales entre différentes entités, compromettant ainsi la robustesse face aux bruits dans les modalités telles que les images floues et les relations. Cet article introduit MEAformer, une approche de transformer pour l'alignement d'entités multi-modales avec hybridation métamodale, qui prédit dynamiquement les coefficients de corrélation mutuelle entre les modalités pour une fusion et un alignement modaux plus fins au niveau des entités. Les résultats expérimentaux montrent que notre modèle non seulement atteint des performances de pointe (SOTA) dans plusieurs scénarios d'entraînement, y compris supervisé, non supervisé, itératif et à faibles ressources, mais qu'il possède également un nombre limité de paramètres, une exécution efficace et une interprétabilité. Notre code est disponible sur https://github.com/zjukg/MEAformer.