Command Palette
Search for a command to run...
Attention hiérarchique conjointe question-image pour le réponse aux questions visuelles
Attention hiérarchique conjointe question-image pour le réponse aux questions visuelles
Jiasen Lu* Jianwei Yang* Dhruv Batra*† Devi Parikh*†
Résumé
Plusieurs travaux récents ont proposé des modèles d'attention pour le Visual Question Answering (VQA) qui génèrent des cartes spatiales mettant en évidence les régions de l'image pertinentes pour répondre à la question. Dans cet article, nous soutenons que, en plus de modéliser « où regarder » ou l'attention visuelle, il est également crucial de modéliser « quelles mots écouter » ou l'attention à la question. Nous présentons un nouveau modèle d'attention conjointe (co-attention) pour le VQA qui raisonne simultanément sur l'attention à l'image et à la question. De plus, notre modèle raisonne sur la question (et par conséquent sur l'image via le mécanisme d'attention conjointe) de manière hiérarchique grâce à des réseaux neuronaux convolutifs (CNN) unidimensionnels novateurs. Notre modèle améliore l'état de l'art sur le jeu de données VQA de 60,3% à 60,5%, et sur le jeu de données COCO-QA de 61,6% à 63,3%. En utilisant ResNet, les performances sont encore améliorées à 62,1% pour VQA et 65,4% pour COCO-QA.