Réseau structuré en graphe pour l'appariement image-texte

La correspondance image-texte a suscité un intérêt croissant depuis qu’elle permet de relier vision et langage. Le défi majeur réside dans la manière d’apprendre la correspondance entre image et texte. Les travaux existants s’appuient sur des statistiques de co-occurrence d’objets pour apprendre une correspondance grossière, tout en échouant à capturer une correspondance fine au niveau des phrases. Dans cet article, nous proposons un nouveau réseau de correspondance structuré en graphe (GSMN) afin d’apprendre une correspondance fine. Le GSMN modélise explicitement les objets, les relations et les attributs comme une phrase structurée, ce qui permet non seulement d’apprendre séparément les correspondances des objets, des relations et des attributs, mais aussi de favoriser l’apprentissage de correspondances fines au niveau de phrases structurées. Cela est réalisé grâce à une correspondance au niveau des nœuds et une correspondance au niveau de la structure. La correspondance au niveau des nœuds associe chaque nœud (qui peut être un objet, une relation ou un attribut) à ses nœuds pertinents provenant de l’autre modalité. Ces nœuds associés infèrent ensuite conjointement la correspondance fine en combinant les associations de voisinage au niveau de la structure. Des expériences approfondies montrent que le GSMN surpasse les méthodes de pointe sur des benchmarks, avec des améliorations relatives de rappel@1 de près de 7 % et 2 % respectivement sur Flickr30K et MSCOCO. Le code sera publié à l’adresse suivante : https://github.com/CrossmodalGroup/GSMN.