Réseaux de Attention Empilés pour le Questionnement sur les Images

Ce document présente les réseaux d'attention empilés (SANs) qui apprennent à répondre à des questions en langage naturel à partir d'images. Les SANs utilisent la représentation sémantique d'une question comme requête pour rechercher les régions dans une image qui sont liées à la réponse. Nous soutenons que le questionnement visuel (QA) sur des images nécessite souvent plusieurs étapes de raisonnement. Par conséquent, nous avons développé un SAN multicouche dans lequel nous interrogeons l'image plusieurs fois pour inférer progressivement la réponse. Des expériences menées sur quatre ensembles de données QA d'images montrent que les SANs proposés surpassent significativement les approches précédentes de pointe. La visualisation des couches d'attention illustre le processus par lequel le SAN localise, couche par couche, les indices visuels pertinents conduisant à la réponse à la question.Note : - "stacked attention networks" est traduit par "réseaux d'attention empilés" (SANs).- "image question answering" est traduit par "questionnement visuel sur des images" (QA).- Les termes techniques tels que "ensembles de données", "couches d'attention" et "représentation sémantique" sont traduits selon leur usage courant en français dans le domaine scientifique et technologique.