IBMEA : Exploration de la Bouteille d'Information Variationnelle pour l'Alignement d'Entités Multimodales

L'alignement d'entités multi-modales (MMEA) vise à identifier des entités équivalentes entre des graphes de connaissances multi-modaux (MMKGs), où les entités peuvent être associées à des images connexes. La plupart des études existantes intègrent l'information multi-modale en s'appuyant fortement sur un module de fusion appris automatiquement, rarement supprimant explicitement les informations redondantes pour le MMEA. Dans ce contexte, nous explorons le bouchon d'information variationnel pour l'alignement d'entités multi-modales (IBMEA), qui met l'accent sur les informations pertinentes pour l'alignement et réduit les informations non pertinentes dans la génération de représentations d'entités. Plus précisément, nous concevons des encodeurs variationnels multi-modaux pour générer des représentations d'entités spécifiques à chaque mode sous forme de distributions de probabilité. Ensuite, nous proposons quatre régularisateurs spécifiques à chaque mode du bouchon d'information, limitant les indices trompeurs lors du raffinement des représentations d'entités spécifiques à chaque mode. Enfin, nous proposons un régularisateur hybride modalité-information contrastive pour intégrer toutes les représentations raffinées spécifiques à chaque mode, améliorant ainsi la similarité des entités entre les MMKGs afin d'atteindre le MMEA. Nous menons une série d'expériences approfondies sur deux jeux de données MMEA transversaux aux graphes de connaissances et trois jeux de données MMEA bilingues. Les résultats expérimentaux démontrent que notre modèle dépasse constamment les méthodes précédentes considérées comme étant à l'état de l'art, et montre également une performance prometteuse et robuste dans des scénarios avec peu de ressources et beaucoup de bruit dans les données.