Un Modèle de Attention Dynamique Ciblée pour le Répondant Visuel aux Questions

Les problèmes de Visual Question and Answering (VQA) suscitent un intérêt croissant dans plusieurs disciplines de recherche. La résolution de ces problèmes nécessite des techniques issues à la fois de la vision par ordinateur pour comprendre les contenus visuels d'une image ou d'une vidéo présentée, et du traitement du langage naturel pour comprendre la sémantique de la question et générer les réponses. En ce qui concerne la modélisation des contenus visuels, la plupart des méthodes VQA existantes adoptent une stratégie d'extraction de caractéristiques globales à partir de l'image ou de la vidéo, ce qui échoue inévitablement à capturer des informations fines, telles que la configuration spatiale de plusieurs objets. L'extraction de caractéristiques à partir de régions générées automatiquement — comme le font certaines méthodes d'identification d'images basées sur les régions — ne peut pas résoudre fondamentalement ce problème et peut introduire des caractéristiques non pertinentes en excès par rapport à la question. Dans cette étude, nous proposons un nouveau modèle d'Attention Dynamique Ciblée (Focused Dynamic Attention - FDA) pour fournir une représentation plus alignée du contenu visuel avec les questions posées. Conscient des mots-clés dans la question, le FDA utilise un détecteur d'objets prêt-à-l'emploi pour identifier les régions importantes et fusionne les informations provenant de ces régions et des caractéristiques globales via une unité LSTM. Ces représentations guidées par la question sont ensuite combinées avec la représentation de la question elle-même et alimentées dans une unité de raisonnement pour générer les réponses. Une évaluation approfondie sur un grand ensemble de données de référence, VQA, démontre clairement les performances supérieures du FDA par rapport aux lignes directrices bien établies.