Une correspondance approfondie entre graphes de scène locaux et globaux pour la recherche d’images et de texte

Les approches conventionnelles pour la recherche d’images à partir de texte se concentrent principalement sur l’indexation des objets visuels présents dans les images, tout en ignorant les interactions entre ces objets. Or, ces occurrences d’objets ainsi que leurs interactions sont tout aussi pertinentes et importantes dans ce domaine, car elles sont fréquemment mentionnées dans les descriptions textuelles. La représentation sous forme de graphe de scène (scene graph) constitue une méthode adaptée au défi de correspondance image-texte, ayant déjà obtenu de bons résultats grâce à sa capacité à capturer les informations relatives aux relations inter-objets. À la fois les images et les textes sont représentés au niveau des graphes de scène, transformant ainsi le problème de recherche en un problème de correspondance entre graphes de scène. Dans cet article, nous proposons le modèle LGSGM (Local and Global Scene Graph Matching), qui améliore la méthode de pointe en intégrant un réseau de convolution de graphe supplémentaire afin de capturer les informations globales d’un graphe. Plus précisément, pour une paire de graphes de scène correspondant à une image et à sa légende, deux modèles distincts sont utilisés pour apprendre les caractéristiques des nœuds et des arêtes de chaque graphe. Ensuite, un modèle de convolution de graphe de structure siamoise est appliqué pour encoder les graphes sous forme de vecteurs. Enfin, nous combinons les informations au niveau du graphe et au niveau du vecteur afin de calculer la similarité de la paire image-texte. Les expériences empiriques montrent que notre amélioration, fondée sur la combinaison de ces deux niveaux, permet d’augmenter le taux de rappel de plus de 10 % par rapport à la méthode de base sur le jeu de données Flickr30k.