Command Palette
Search for a command to run...
GQA : Un Nouveau Jeu de Données pour le Raisonnement Visuel dans le Monde Réel et la Réponse Composée aux Questions
GQA : Un Nouveau Jeu de Données pour le Raisonnement Visuel dans le Monde Réel et la Réponse Composée aux Questions
Drew A. Hudson Christopher D. Manning
Résumé
Nous présentons GQA, un nouveau jeu de données pour la raisonnement visuel dans le monde réel et les réponses à des questions compositionnelles, visant à surmonter les principales lacunes des précédents jeux de données en VQA (Visual Question Answering). Nous avons développé un moteur de questions puissant et robuste qui utilise des structures de graphes de scènes pour créer 22 millions de questions de raisonnement diversifiées, chacune accompagnée d'un programme fonctionnel représentant sa sémantique. Nous utilisons ces programmes pour contrôler strictement la distribution des réponses et introduisons une nouvelle technique d'adoucissement réglable pour atténuer les biais des questions. Le jeu de données est accompagné d'une série de nouvelles métriques évaluant des qualités essentielles telles que la cohérence, l'ancrage et la plausibilité. Une analyse approfondie est réalisée pour les modèles de base ainsi que pour les modèles d'avant-garde, fournissant des résultats détaillés pour différents types de questions et topologies. Alors qu'un LSTM aveugle obtient seulement 42,1 %, et que les modèles VQA performants atteignent 54,1 %, la performance humaine culmine à 89,3 %, offrant de nombreuses opportunités pour de nouvelles recherches à explorer. Nous espérons vivement que GQA fournira une ressource essentielle pour la génération suivante de modèles dotés d'une robustesse accrue, d'une cohérence améliorée et d'une compréhension sémantique plus profonde des images et du langage.