Attention visuelle-textuelle focalisée pour la réponse à des questions dans Memex
Les avancées récentes dans les modèles neuronaux pour le traitement du langage et de la vision ont été efficacement appliquées à des tâches simples de réponse à des questions visuelles à partir d’une seule image. Toutefois, pour aborder les problèmes réels de réponse à des questions dans des collections multimédias, telles que des albums photo personnels, il est nécessaire de considérer des séries complètes de photos. Ce papier introduit une nouvelle tâche de question-réponse multimodale, appelée MemexQA : étant donné une séquence de photos provenant d’un utilisateur, l’objectif est de répondre automatiquement à des questions afin d’aider l’utilisateur à réactiver sa mémoire concernant un événement capturé dans ces images. En plus d’une réponse textuelle, le système fournit également quelques photos d’ancrage (grounding photos) pour justifier la réponse. Ces photos d’ancrage sont essentielles car elles permettent à l’utilisateur de vérifier rapidement la pertinence de la réponse. Pour résoudre cette tâche, nous proposons : 1) le jeu de données MemexQA, le premier ensemble de données publiquement disponible pour la question-réponse multimodale, composé d’albums photo personnels réels ; 2) un réseau entièrement entraînable en bout à bout, qui utilise un processus hiérarchique pour déterminer dynamiquement quel type de média et quel moment dans la séquence de données doivent être mis en avant afin de répondre à la question. Les résultats expérimentaux sur le jeu de données MemexQA montrent que notre modèle surpasse les méthodes de référence et produit les photos d’ancrage les plus pertinentes sur cette tâche exigeante.