HyperAIHyperAI
il y a 15 jours

Raisonnement par similarité et filtration pour l’alignement image-texte

Haiwen Diao, Ying Zhang, Lin Ma, Huchuan Lu
Raisonnement par similarité et filtration pour l’alignement image-texte
Résumé

L’appariement image-texte joue un rôle fondamental dans la liaison entre la vision et le langage, et des progrès significatifs ont été réalisés en exploitant l’alignement global entre une image et une phrase, ou les alignements locaux entre des régions d’image et des mots. Toutefois, la manière dont ces alignements peuvent être optimisés pour estimer des scores d’appariement plus précis reste encore peu explorée. Dans cet article, nous proposons un nouveau réseau, nommé Similarity Graph Reasoning and Attention Filtration (SGRAF), dédié à l’appariement image-texte. Plus précisément, des représentations de similarité basées sur des vecteurs sont d’abord apprises afin de caractériser de manière plus complète les alignements locaux et globaux. Ensuite, le module de raisonnement graphique de similarité (SGR), fondé sur un réseau neuronal à convolution de graphe, est introduit pour estimer des similarités conscientes des relations en combinant à la fois les alignements locaux et globaux. Un module supplémentaire, nommé filtration d’attention de similarité (SAF), est développé pour intégrer efficacement ces alignements en se concentrant sélectivement sur les alignements significatifs et représentatifs, tout en éliminant les perturbations provenant des alignements non pertinents. Nous démontrons l’efficacité de la méthode proposée, qui atteint des performances de pointe sur les jeux de données Flickr30K et MSCOCO, ainsi que l’interprétabilité remarquable des modules SGR et SAF, grâce à des expérimentations qualitatives étendues et des analyses détaillées.

Raisonnement par similarité et filtration pour l’alignement image-texte | Articles de recherche récents | HyperAI