Attention Visuelle Récursive dans le Dialogue Visuel

Le dialogue visuel est une tâche complexe de vision-langage qui nécessite que l'agent réponde à des questions sur plusieurs tours concernant une image. Cette tâche implique généralement la résolution de deux problèmes majeurs : (1) Comment répondre aux questions ancrées visuellement, qui constitue le défi principal dans le domaine de la réponse aux questions visuelles (VQA) ; (2) Comment inférer la coréférence entre les questions et l'historique du dialogue. Un exemple de coréférence visuelle est : les pronoms (par exemple, « ils ») dans la question (par exemple, « Sont-ils allumés ou éteints ? ») sont liés aux noms (par exemple, « lampes ») apparaissant dans l'historique du dialogue (par exemple, « Combien de lampes y a-t-il ? ») et à l'objet ancré dans l'image. Dans cette étude, pour résoudre la coréférence visuelle dans le dialogue visuel, nous proposons un nouveau mécanisme d'attention appelé Attention Visuelle Récursive (RvA). Plus précisément, notre agent de dialogue parcourt l'historique du dialogue jusqu'à ce qu'il ait une confiance suffisante dans la résolution de la coréférence visuelle, et affine l'attention visuelle de manière récursive. Les résultats expérimentaux quantitatifs et qualitatifs sur les grands ensembles de données VisDial v0.9 et v1.0 montrent que le RvA proposé non seulement surpasse les méthodes les plus avancées actuellement disponibles, mais atteint également une récursion raisonnable et des cartes d'attention interprétables sans annotations supplémentaires. Le code est disponible à l'adresse \url{https://github.com/yuleiniu/rva}.