Ensemble De Données De Questions-réponses Visuelles Visual7W
Date
Taille
URL de publication
Licence
其他
Tags
Catégories

Visual7W est un ensemble de données permettant de comprendre le contenu des images. Il effectue des tâches de réponse visuelle aux questions en décrivant les régions d'image dans le texte et leurs associations. L'ensemble de données contient non seulement l'image elle-même, mais également des questions et des réponses liées au contenu de la région de l'image.
Visual7W est un sous-ensemble de l'ensemble de données Visual Genome, contenant 47 300 images de l'ensemble de données COCO, 327 929 paires questions-réponses, 1 311 756 questions à choix multiples générées par l'homme et 561 459 bases d'objets couvrant 36 579 catégories.
Les questions de Visual7W consistent principalement en quoi, où, comment, quand, qui, pourquoi et lequel. Les questions sont à choix multiples et chaque question a quatre réponses possibles.