il y a 7 mois

Résumé

Dans cet article, nous étudions le problème de l'appariement image-texte. L'inférence de l'alignement sémantique latent entre les objets ou d'autres éléments saillants (par exemple, la neige, le ciel, la pelouse) et les mots correspondants dans les phrases permet de capturer une interaction fine entre la vision et le langage, rendant ainsi l'appariement image-texte plus interprétable. Les travaux antérieurs soit agrègent simplement la similarité de tous les paires possibles de régions et de mots sans prêter une attention différentielle aux mots ou régions plus importants, soit utilisent un processus d'attention en plusieurs étapes pour capturer un nombre limité d'alignements sémantiques qui sont moins interprétables. Dans cet article, nous présentons l'Attention Croisée Empilée (Stacked Cross Attention) pour découvrir tous les alignements latents en utilisant à la fois des régions d'image et des mots dans une phrase comme contexte, et inférer la similarité image-texte. Notre approche atteint des résultats de pointe sur les jeux de données MS-COCO et Flickr30K. Sur Flickr30K, notre méthode surpassent les méthodes actuelles les plus performantes de 22,1% en termes de récupération textuelle à partir d'une requête d'image et de 18,2% en termes de récupération d'image à partir d'une requête textuelle (basé sur Recall@1). Sur MS-COCO, notre approche améliore la récupération des phrases de 17,8% et celle des images de 16,6% (basé sur Recall@1 en utilisant l'ensemble de test 5K). Le code est disponible à l'adresse suivante : https://github.com/kuanghuei/SCAN.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 7 mois

Multimodal

Représentation Multimodale

Compréhension D'images

Multimodal

Vision Par Ordinateur

Tâche

Kuang-Huei Lee; Xi Chen; Gang Hua; Houdong Hu; Xiaodong He

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 7 mois

Multimodal

Représentation Multimodale

Compréhension D'images

Multimodal

Vision Par Ordinateur

Tâche

Kuang-Huei Lee; Xi Chen; Gang Hua; Houdong Hu; Xiaodong He

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Attention Croisée Empilée pour le Couplage Image-Texte

Kuang-Huei Lee; Xi Chen; Gang Hua; Houdong Hu; Xiaodong He

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Attention Croisée Empilée pour le Couplage Image-Texte

Kuang-Huei Lee; Xi Chen; Gang Hua; Houdong Hu; Xiaodong He

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Attention Croisée Empilée pour le Couplage Image-Texte

Kuang-Huei Lee; Xi Chen; Gang Hua; Houdong Hu; Xiaodong He

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters