HyperAIHyperAI
il y a 2 mois

Réexaminer la modalité visuelle incertaine, manquante et ambiguë dans l'alignement d'entités multi-modales

Zhuo Chen; Lingbing Guo; Yin Fang; Yichi Zhang; Jiaoyan Chen; Jeff Z. Pan; Yangning Li; Huajun Chen; Wen Zhang
Réexaminer la modalité visuelle incertaine, manquante et ambiguë dans l'alignement d'entités multi-modales
Résumé

En tant qu'extension cruciale de l'alignement d'entités (EA), l'alignement d'entités multi-modaux (MMEA) vise à identifier des entités identiques dans des graphes de connaissances (KGs) distincts en exploitant les informations visuelles associées. Cependant, les approches actuelles de MMEA se concentrent principalement sur le paradigme de fusion des caractéristiques d'entités multi-modales, tout en négligeant les défis posés par le phénomène omniprésent de données manquantes et d'ambiguïté intrinsèque des images visuelles. Dans cet article, nous présentons une analyse plus approfondie de l'incomplétude de la modalité visuelle, en évaluant les derniers modèles de MMEA sur notre jeu de données proposé, MMEA-UMVM, où les types d'alignement de KGs couvrent les scénarios bilingues et monolingues, avec des paradigmes d'entraînement standard (non itératif) et itératif pour mesurer les performances des modèles. Nos recherches montrent que face à l'incomplétude modale, les modèles sont sujets au surapprentissage du bruit modal et présentent des fluctuations ou des baisses de performance à des taux élevés de données manquantes. Ceci démontre que l'intégration de données multi-modales supplémentaires peut parfois avoir un effet négatif sur l'EA. Pour relever ces défis, nous introduisons UMAEA, une approche robuste d'alignement d'entités multi-modales conçue pour gérer les modalités visuelles incertaines et manquantes ainsi que leur ambiguïté. Elle obtient constamment des performances SOTA sur tous les 97 jeux de tests du benchmark, surpassant considérablement les méthodes existantes avec une utilisation limitée de paramètres et une consommation minimale de temps, tout en atténuant efficacement les limitations identifiées des autres modèles. Notre code source et nos données de benchmark sont disponibles à l'adresse suivante : https://github.com/zjukg/UMAEA.

Réexaminer la modalité visuelle incertaine, manquante et ambiguë dans l'alignement d'entités multi-modales | Articles de recherche récents | HyperAI