Ensemble De Données De Questions-réponses Visuelles VizWiz Pour Les Aveugles
Date
Taille
URL de publication
Licence
CC BY 4.0
Catégories

VizWiz-VQA (Visual Question Answering) est un ensemble de données d'images pour les réponses visuelles aux questions destinées aux aveugles. Les utilisateurs aveugles utilisent le logiciel VizWiz pour prendre une photo et enregistrer une question verbale sur la photo et 10 réponses participatives à la question. Cet ensemble de données est utilisé pour résoudre les deux problèmes suivants : l'un consiste à prédire la réponse à une question visuelle et l'autre à déterminer si une question visuelle peut recevoir une réponse. Cet ensemble de données vise à étudier des algorithmes plus généraux pour aider les personnes aveugles à résoudre les obstacles de la vie.
L'ensemble de données comprend (dernière version 2020):
- 20 523 paires d'images/questions de formation
- 205 230 pour les réponses de formation/confiance en matière de réponses
- 4319 images/questions de vérification
- 43 190 paires de réponses vérifiées/confiance des réponses
- 8 000 paires d'images/questions de test