il y a 2 mois

Résolution de la Co-référence Visuelle dans le Dialogue Visuel à l'Aide des Réseaux de Modules Neuronaux

Satwik Kottur; José M. F. Moura; Devi Parikh; Dhruv Batra; Marcus Rohrbach

Résumé

Le dialogue visuel implique de répondre à une série de questions basées sur une image, en utilisant l'historique du dialogue comme contexte. Outre les défis rencontrés dans le domaine de la réponse aux questions visuelles (VQA), qui peut être considérée comme un dialogue en un tour, le dialogue visuel comporte plusieurs autres difficultés. Nous nous concentrons sur un problème particulier appelé résolution de co-référence visuelle, qui consiste à déterminer quels mots, généralement des groupes nominaux et des pronoms, font référence à la même entité/instance d'objet dans une image. Cela est crucial, notamment pour les pronoms (par exemple, « it »), car l'agent de dialogue doit d'abord les relier à une co-référence précédente (par exemple, « boat »), avant de pouvoir s'appuyer sur l'ancre visuelle de la co-référence « boat » pour raisonner sur le pronom « it ».Les travaux antérieurs (dans le domaine du dialogue visuel) modélisent la résolution de co-référence visuelle soit (a) implicitement par l'intermédiaire d'un réseau mémoire sur l'historique, soit (b) à un niveau grossier pour l'ensemble de la question ; mais pas explicitement au niveau granulaire des phrases. Dans cette étude, nous proposons une architecture de réseau neuronal modulaire pour le dialogue visuel en introduisant deux nouveaux modules - Référencer et Exclure - qui effectuent une résolution explicite et ancrée de co-référence à un niveau plus fin des mots. Nous démontrons l'efficacité de notre modèle sur MNIST Dialog, un ensemble de données visuellement simple mais complexe en termes de co-référence, en atteignant une précision quasi-parfaite, ainsi que sur VisDial, un grand et difficile ensemble de données de dialogue visuel sur des images réelles, où notre modèle surpassent les autres approches et se montre plus interprétable, ancré et cohérent qualitativement.