VQA : Réponse à des Questions Visuelles

Nous proposons la tâche de Visual Question Answering (VQA) libre et ouverte. Étant donné une image et une question en langage naturel concernant cette image, le but est de fournir une réponse précise en langage naturel. En reflétant des scénarios réels, comme l'aide aux personnes malvoyantes, les questions et les réponses sont ouvertes. Les questions visuelles ciblent sélectivement différentes parties d'une image, y compris les détails du fond et le contexte sous-jacent. Par conséquent, un système qui réussit dans le VQA a généralement besoin d'une compréhension plus détaillée de l'image et d'un raisonnement plus complexe qu'un système produisant des légendes d'images génériques. De plus, le VQA est propice à l'évaluation automatique, car de nombreuses réponses ouvertes ne contiennent que quelques mots ou un ensemble fermé de réponses qui peuvent être fournies sous forme de choix multiples. Nous fournissons un jeu de données contenant environ 0,25 million d'images, 0,76 million de questions et 10 millions de réponses (www.visualqa.org), et discutons des informations qu'il fournit. De nombreuses méthodes de base et approches pour le VQA sont présentées et comparées aux performances humaines. Notre démonstration VQA est disponible sur CloudCV (http://cloudcv.org/vqa).