il y a 2 mois

Réseaux d'Attention Double pour la Résolution de Références Visuelles dans le Dialogue Visuel

Gi-Cheon Kang; Jaeseo Lim; Byoung-Tak Zhang

Résumé

Le dialogue visuel (VisDial) est une tâche qui nécessite qu'un agent d'IA réponde à une série de questions basées sur une image. Contrairement au répondre aux questions visuelles (VQA), cette série de questions doit être capable de capturer un contexte temporel à partir de l'historique du dialogue et d'exploiter des informations ancrées visuellement. Un problème appelé résolution de référence visuelle implique ces défis, obligeant l'agent à résoudre les références ambiguës dans une question donnée et à trouver ces références dans une image donnée. Dans cet article, nous proposons des Réseaux d'Attention Duale (DAN) pour la résolution de référence visuelle. Le DAN se compose de deux types de réseaux d'attention, REFER et FIND. Plus précisément, le module REFER apprend les relations latentes entre une question donnée et l'historique du dialogue en utilisant un mécanisme d'auto-attention. Le module FIND prend en entrée les caractéristiques d'image et les représentations sensibles aux références (c'est-à-dire la sortie du module REFER) et effectue l'ancre visuelle par le biais d'un mécanisme d'attention ascendante. Nous évaluons notre modèle qualitativement et quantitativement sur les jeux de données VisDial v1.0 et v0.9, montrant que le DAN dépasse le modèle précédemment considéré comme l'état de l'art avec une marge significative.