Réseau d'attention à vue multiple pour la dialogue visuelle

Le dialogue visuel est une tâche complexe en vision et langage, dans laquelle une série de questions fondées visuellement sur une image donnée doit être répondue. Pour résoudre cette tâche, il est nécessaire d’acquérir une compréhension de haut niveau des différentes entrées multimodales (par exemple, la question, l’historique du dialogue et l’image). Plus précisément, un agent doit être capable de : 1) identifier l’intention sémantique de la question, et 2) aligner les contenus textuels et visuels pertinents à la question parmi les entrées hétérogènes. Dans cet article, nous proposons le réseau d’attention à multiples vues (Multi-View Attention Network, MVAN), qui exploite plusieurs perspectives des entrées hétérogènes grâce à des mécanismes d’attention. MVAN capte efficacement les informations pertinentes à la question à partir de l’historique du dialogue grâce à deux modules complémentaires (à savoir, l’agrégation de sujets et le matching de contexte), et construit des représentations multimodales à travers des processus d’alignement séquentiels (c’est-à-dire l’alignement des modalités). Les résultats expérimentaux sur le jeu de données VisDial v1.0 démontrent l’efficacité de notre modèle proposé, qui surpassent les méthodes de l’état de l’art précédentes selon tous les critères d’évaluation.