HyperAIHyperAI

Command Palette

Search for a command to run...

Attention hiérarchique conjointe question-image pour le réponse aux questions visuelles

Jiasen Lu* Jianwei Yang* Dhruv Batra*† Devi Parikh*†

Résumé

Plusieurs travaux récents ont proposé des modèles d'attention pour le Visual Question Answering (VQA) qui génèrent des cartes spatiales mettant en évidence les régions de l'image pertinentes pour répondre à la question. Dans cet article, nous soutenons que, en plus de modéliser « où regarder » ou l'attention visuelle, il est également crucial de modéliser « quelles mots écouter » ou l'attention à la question. Nous présentons un nouveau modèle d'attention conjointe (co-attention) pour le VQA qui raisonne simultanément sur l'attention à l'image et à la question. De plus, notre modèle raisonne sur la question (et par conséquent sur l'image via le mécanisme d'attention conjointe) de manière hiérarchique grâce à des réseaux neuronaux convolutifs (CNN) unidimensionnels novateurs. Notre modèle améliore l'état de l'art sur le jeu de données VQA de 60,3% à 60,5%, et sur le jeu de données COCO-QA de 61,6% à 63,3%. En utilisant ResNet, les performances sont encore améliorées à 62,1% pour VQA et 65,4% pour COCO-QA.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp