HyperAIHyperAI
il y a 2 mois

Attention Visuelle et Textuelle Focale pour le Répondant aux Questions Visuelles

Junwei Liang; Lu Jiang; Liangliang Cao; Li-Jia Li; Alexander Hauptmann
Attention Visuelle et Textuelle Focale pour le Répondant aux Questions Visuelles
Résumé

Les récentes avancées dans le domaine du langage et de la vision grâce aux réseaux neuronaux ont été appliquées avec succès à des tâches simples de réponse à des questions visuelles sur une seule image. Cependant, pour aborder les problèmes de réponse à des questions en conditions réelles sur des collections multimédias telles que des photos personnelles, il est nécessaire d'examiner l'ensemble des collections comprenant des séquences de photos ou de vidéos. Lorsqu'on répond à des questions provenant d'une grande collection, un problème naturel consiste à identifier les extraits qui soutiennent la réponse. Dans cet article, nous décrivons un nouveau réseau neuronal appelé Focal Visual-Text Attention network (FVTA) pour le raisonnement collectif en réponse visuelle aux questions, où sont présentées à la fois des informations visuelles et textuelles sous forme d'images et de métadonnées textuelles. Le FVTA introduit une approche intégrée qui utilise un processus hiérarchique pour déterminer dynamiquement sur quels médias et à quel moment se concentrer dans les données séquentielles afin de répondre à la question. Non seulement le FVTA peut-il répondre efficacement aux questions, mais il fournit également les justifications sur lesquelles reposent les résultats du système pour obtenir ces réponses. Le FVTA obtient des performances de pointe sur l'ensemble de données MemexQA et des résultats compétitifs sur l'ensemble de données MovieQA.

Attention Visuelle et Textuelle Focale pour le Répondant aux Questions Visuelles | Articles de recherche récents | HyperAI