HyperAIHyperAI

Command Palette

Search for a command to run...

VQA : Réponse à des Questions Visuelles

Aishwarya Agrawal; Jiasen Lu; Stanislaw Antol; Margaret Mitchell; C. Lawrence Zitnick; Dhruv Batra; Devi Parikh

Résumé

Nous proposons la tâche de Visual Question Answering (VQA) libre et ouverte. Étant donné une image et une question en langage naturel concernant cette image, le but est de fournir une réponse précise en langage naturel. En reflétant des scénarios réels, comme l'aide aux personnes malvoyantes, les questions et les réponses sont ouvertes. Les questions visuelles ciblent sélectivement différentes parties d'une image, y compris les détails du fond et le contexte sous-jacent. Par conséquent, un système qui réussit dans le VQA a généralement besoin d'une compréhension plus détaillée de l'image et d'un raisonnement plus complexe qu'un système produisant des légendes d'images génériques. De plus, le VQA est propice à l'évaluation automatique, car de nombreuses réponses ouvertes ne contiennent que quelques mots ou un ensemble fermé de réponses qui peuvent être fournies sous forme de choix multiples. Nous fournissons un jeu de données contenant environ 0,25 million d'images, 0,76 million de questions et 10 millions de réponses (www.visualqa.org), et discutons des informations qu'il fournit. De nombreuses méthodes de base et approches pour le VQA sont présentées et comparées aux performances humaines. Notre démonstration VQA est disponible sur CloudCV (http://cloudcv.org/vqa).


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp