HyperAIHyperAI
il y a 2 mois

FVQA : Réponse aux Questions Visuelles Basées sur des Faits

Peng Wang; Qi Wu; Chunhua Shen; Anton van den Hengel; Anthony Dick
FVQA : Réponse aux Questions Visuelles Basées sur des Faits
Résumé

Le Visual Question Answering (VQA) a suscité beaucoup d'attention dans les communautés de la Vision par Ordinateur et du Traitement du Langage Naturel, notamment parce qu'il offre des insights sur les relations entre deux sources importantes d'information. Les jeux de données actuels, ainsi que les modèles construits à partir d'eux, se sont concentrés sur des questions qui peuvent être résolues par une analyse directe de la question et de l'image uniquement. L'ensemble de ces questions qui ne nécessitent aucune information externe pour être répondues est intéressant, mais très limité. Il exclut, par exemple, les questions qui requièrent un sens commun ou des connaissances factuelles de base.Nous introduisons ici FVQA, un jeu de données VQA qui nécessite et supporte un raisonnement beaucoup plus profond. FVQA ne contient que des questions qui nécessitent des informations externes pour être répondues.Ainsi, nous étendons un jeu de données conventionnel de visual question answering, qui comprend des triplets image-question-réponse, en y ajoutant des quadruplets image-question-réponse-fait supportant. Le fait supportant est représenté sous forme de triplet structuré, tel que <Chat, CapableDe, GrimperAux Arbres>.Nous évaluons plusieurs modèles basiques sur le jeu de données FVQA et décrivons un modèle novateur capable de raisonner sur une image en se basant sur des faits supportants.

FVQA : Réponse aux Questions Visuelles Basées sur des Faits | Articles de recherche récents | HyperAI