Attention Croisée Empilée pour le Couplage Image-Texte

Dans cet article, nous étudions le problème de l'appariement image-texte. L'inférence de l'alignement sémantique latent entre les objets ou d'autres éléments saillants (par exemple, la neige, le ciel, la pelouse) et les mots correspondants dans les phrases permet de capturer une interaction fine entre la vision et le langage, rendant ainsi l'appariement image-texte plus interprétable. Les travaux antérieurs soit agrègent simplement la similarité de tous les paires possibles de régions et de mots sans prêter une attention différentielle aux mots ou régions plus importants, soit utilisent un processus d'attention en plusieurs étapes pour capturer un nombre limité d'alignements sémantiques qui sont moins interprétables. Dans cet article, nous présentons l'Attention Croisée Empilée (Stacked Cross Attention) pour découvrir tous les alignements latents en utilisant à la fois des régions d'image et des mots dans une phrase comme contexte, et inférer la similarité image-texte. Notre approche atteint des résultats de pointe sur les jeux de données MS-COCO et Flickr30K. Sur Flickr30K, notre méthode surpassent les méthodes actuelles les plus performantes de 22,1% en termes de récupération textuelle à partir d'une requête d'image et de 18,2% en termes de récupération d'image à partir d'une requête textuelle (basé sur Recall@1). Sur MS-COCO, notre approche améliore la récupération des phrases de 17,8% et celle des images de 16,6% (basé sur Recall@1 en utilisant l'ensemble de test 5K). Le code est disponible à l'adresse suivante : https://github.com/kuanghuei/SCAN.