HyperAIHyperAI
il y a 15 jours

Raisonnement sémantique visuel pour l'appariement image-texte

Kunpeng Li, Yulun Zhang, Kai Li, Yuanyuan Li, Yun Fu
Raisonnement sémantique visuel pour l'appariement image-texte
Résumé

L’alignement image-texte constitue un sujet de recherche actuel majeur reliant les domaines de la vision par ordinateur et du langage naturel. Ce problème reste difficile à résoudre, car la représentation actuelle d’une image manque souvent de concepts sémantiques globaux présents dans sa légende textuelle correspondante. Pour pallier ce défaut, nous proposons un modèle de raisonnement simple et interprétable afin de générer une représentation visuelle qui capture les objets clés et les concepts sémantiques d’une scène. Plus précisément, nous établissons tout d’abord des connexions entre les régions de l’image, puis appliquons des réseaux de convolution sur graphe (Graph Convolutional Networks) pour effectuer un raisonnement et produire des caractéristiques intégrant des relations sémantiques. Ensuite, nous introduisons un mécanisme de porte (gate) combiné à une mémoire afin de réaliser un raisonnement sémantique global sur ces caractéristiques enrichies par les relations, sélectionner les informations discriminantes, et générer progressivement une représentation globale de la scène. Des expériences montrent que notre méthode atteint un nouveau record sur les tâches d’alignement image-texte sur les jeux de données MS-COCO et Flickr30K. Elle dépasse la meilleure méthode actuelle de 6,8 % en récupération d’image et de 4,8 % en récupération de légende sur MS-COCO (mesuré par Recall@1 sur un ensemble de test de 1 000 échantillons). Sur Flickr30K, notre modèle améliore la récupération d’image de 12,6 % et celle des légendes de 5,8 % (Recall@1). Le code source est disponible à l’adresse suivante : https://github.com/KunpengLi1994/VSRN.

Raisonnement sémantique visuel pour l'appariement image-texte | Articles de recherche récents | HyperAI