Attention hiérarchique conjointe question-image pour le réponse aux questions visuelles

Plusieurs travaux récents ont proposé des modèles d'attention pour le Visual Question Answering (VQA) qui génèrent des cartes spatiales mettant en évidence les régions de l'image pertinentes pour répondre à la question. Dans cet article, nous soutenons que, en plus de modéliser « où regarder » ou l'attention visuelle, il est également crucial de modéliser « quelles mots écouter » ou l'attention à la question. Nous présentons un nouveau modèle d'attention conjointe (co-attention) pour le VQA qui raisonne simultanément sur l'attention à l'image et à la question. De plus, notre modèle raisonne sur la question (et par conséquent sur l'image via le mécanisme d'attention conjointe) de manière hiérarchique grâce à des réseaux neuronaux convolutifs (CNN) unidimensionnels novateurs. Notre modèle améliore l'état de l'art sur le jeu de données VQA de 60,3% à 60,5%, et sur le jeu de données COCO-QA de 61,6% à 63,3%. En utilisant ResNet, les performances sont encore améliorées à 62,1% pour VQA et 65,4% pour COCO-QA.