HyperAIHyperAI
il y a 2 mois

Résolution de Référence Visuelle à l'Aide de la Mémoire d'Attention pour le Dialogue Visuel

Paul Hongsuck Seo; Andreas Lehrmann; Bohyung Han; Leonid Sigal
Résolution de Référence Visuelle à l'Aide de la Mémoire d'Attention pour le Dialogue Visuel
Résumé

Le dialogue visuel est une tâche consistant à répondre à une série de questions interdépendantes en se basant sur une image d'entrée, et nécessite souvent de résoudre les références visuelles entre les questions. Ce problème diffère du visual question answering (VQA), qui repose sur l'attention spatiale (également appelée visual grounding) estimée à partir d'un couple image-question. Nous proposons un nouveau mécanisme d'attention qui exploite les attentions visuelles passées pour résoudre la référence actuelle dans le cadre du dialogue visuel. Le modèle proposé est doté d'une mémoire d'attention associative stockant une séquence de paires (attention, clé) précédentes. À partir de cette mémoire, le modèle récupère l'attention précédente, en tenant compte de sa récence, la plus pertinente pour la question actuelle, afin de résoudre les références potentiellement ambiguës. Le modèle fusionne ensuite l'attention récupérée avec une attention provisoire pour obtenir l'attention finale pour la question actuelle ; plus précisément, nous utilisons la prédiction dynamique des paramètres pour combiner les deux attentions conditionnellement à la question. Par le biais d'expériences approfondies sur un nouveau jeu de données synthétique de dialogue visuel, nous montrons que notre modèle dépasse significativement l'état de l'art (d'environ 16 points) dans des situations où la résolution des références visuelles joue un rôle important. De plus, le modèle proposé obtient des performances supérieures (amélioration d'environ 2 points) dans le jeu de données Visual Dialog, malgré qu'il dispose de beaucoup moins de paramètres que les modèles de base.

Résolution de Référence Visuelle à l'Aide de la Mémoire d'Attention pour le Dialogue Visuel | Articles de recherche récents | HyperAI