Ensemble De Données Densément Annotées Du Génome Visuel
Date
Taille
URL de publication
Licence
CC BY 4.0
Tags
Catégories

L'ensemble de données du génome visuel est un ensemble de données qui relie le langage et la vision grâce à une annotation d'images dense et participative, y compris des données de réponses aux questions visuelles dans un environnement à choix multiples.
L'ensemble de données comprend 1,7 million de paires QA pour 101 174 images MSCOCO, avec une moyenne de 17 questions par image.
Par rapport à l'ensemble de données Visual Question Answering, l'ensemble de données Visual Genome présente une distribution plus équilibrée de six types de questions : Quoi, Où, Quand, Qui, Pourquoi et Comment. De plus, Visual Genome présente 108 000 images densément annotées avec des objets, des attributs et des relations.