il y a 2 mois

Réseaux de Co-Attention Modulaire Profonde pour le Répondre aux Questions Visuelles

Zhou Yu; Jun Yu; Yuhao Cui; Dacheng Tao; Qi Tian

Résumé

La tâche de réponse à des questions visuelles (Visual Question Answering, VQA) nécessite une compréhension fine et simultanée du contenu visuel des images et du contenu textuel des questions. Par conséquent, la conception d'un modèle de « co-attention » efficace pour associer les mots-clés des questions aux objets clés des images est essentielle pour la performance en VQA. Jusqu'à présent, la plupart des tentatives réussies d'apprentissage de la co-attention ont été réalisées en utilisant des modèles peu profonds, tandis que les modèles de co-attention profonde montrent peu d'amélioration par rapport à leurs homologues peu profonds. Dans cet article, nous proposons un réseau de co-attention modulaire profond (Modular Co-Attention Network, MCAN) composé de couches de co-attention modulaire (MCA) empilées en profondeur. Chaque couche MCA modèle l'auto-attention des questions et des images, ainsi que l'attention guidée des images conjointement, en utilisant une composition modulaire de deux unités d'attention basiques. Nous évaluons quantitativement et qualitativement le MCAN sur le jeu de données de référence VQA-v2 et menons des études d'ablation approfondies pour explorer les raisons derrière l'efficacité du MCAN. Les résultats expérimentaux démontrent que le MCAN surpasse significativement l'état de l'art précédent. Notre meilleur modèle unique atteint une précision globale de 70,63 % sur l'ensemble test-dev. Le code source est disponible à l'adresse suivante : https://github.com/MILVLG/mcan-vqa.