HyperAIHyperAI

Command Palette

Search for a command to run...

Attention Croisée Empilée pour le Couplage Image-Texte

Kuang-Huei Lee; Xi Chen; Gang Hua; Houdong Hu; Xiaodong He

Résumé

Dans cet article, nous étudions le problème de l'appariement image-texte. L'inférence de l'alignement sémantique latent entre les objets ou d'autres éléments saillants (par exemple, la neige, le ciel, la pelouse) et les mots correspondants dans les phrases permet de capturer une interaction fine entre la vision et le langage, rendant ainsi l'appariement image-texte plus interprétable. Les travaux antérieurs soit agrègent simplement la similarité de tous les paires possibles de régions et de mots sans prêter une attention différentielle aux mots ou régions plus importants, soit utilisent un processus d'attention en plusieurs étapes pour capturer un nombre limité d'alignements sémantiques qui sont moins interprétables. Dans cet article, nous présentons l'Attention Croisée Empilée (Stacked Cross Attention) pour découvrir tous les alignements latents en utilisant à la fois des régions d'image et des mots dans une phrase comme contexte, et inférer la similarité image-texte. Notre approche atteint des résultats de pointe sur les jeux de données MS-COCO et Flickr30K. Sur Flickr30K, notre méthode surpassent les méthodes actuelles les plus performantes de 22,1% en termes de récupération textuelle à partir d'une requête d'image et de 18,2% en termes de récupération d'image à partir d'une requête textuelle (basé sur Recall@1). Sur MS-COCO, notre approche améliore la récupération des phrases de 17,8% et celle des images de 16,6% (basé sur Recall@1 en utilisant l'ensemble de test 5K). Le code est disponible à l'adresse suivante : https://github.com/kuanghuei/SCAN.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp