Demander, Prêter attention et Répondre : Exploration de l'attention spatiale guidée par la question pour le réponse à des questions visuelles

Nous abordons le problème du Visual Question Answering (VQA), qui nécessite une compréhension conjointe de l'image et du langage pour répondre à une question sur une photographie donnée. Les approches récentes ont appliqué des méthodes de légendage d'images profondes basées sur des réseaux convolutionnels-récurrenceux à ce problème, mais elles n'ont pas réussi à modéliser l'inférence spatiale. Pour remédier à cela, nous proposons un modèle que nous appelons le Réseau Mémoire Spatiale et l'appliquons à la tâche VQA. Les réseaux mémoire sont des réseaux neuronaux récurrents dotés d'un mécanisme d'attention explicite qui sélectionne certaines parties de l'information stockée en mémoire. Notre Réseau Mémoire Spatiale stocke les activations neuronales provenant de différentes régions spatiales de l'image dans sa mémoire, et utilise la question pour choisir les régions pertinentes pour calculer la réponse, un processus qui constitue un seul « saut » dans le réseau. Nous proposons une nouvelle architecture d'attention spatiale qui aligne les mots avec les zones d'image lors du premier saut, et obtenons des résultats améliorés en ajoutant un deuxième saut d'attention qui considère toute la question pour choisir des preuves visuelles basées sur les résultats du premier saut. Pour mieux comprendre le processus d'inférence appris par le réseau, nous concevons des questions synthétiques qui nécessitent spécifiquement une inférence spatiale et visualisons les poids d'attention. Nous évaluons notre modèle sur deux jeux de données publiés de questions-réponses visuelles, DAQUAR [1] et VQA [2], et obtenons des résultats améliorés par rapport à un modèle de référence profond (iBOWIMG) qui concatène les caractéristiques de l'image et de la question pour prédire la réponse [3].