HyperAI

Ensemble De Données De Questions-réponses Visuelles Visual7W

特色图像

Visual7W est un ensemble de données permettant de comprendre le contenu des images. Il effectue des tâches de réponse visuelle aux questions en décrivant les régions d'image dans le texte et leurs associations. L'ensemble de données contient non seulement l'image elle-même, mais également des questions et des réponses liées au contenu de la région de l'image.

Visual7W est un sous-ensemble de l'ensemble de données Visual Genome, contenant 47 300 images de l'ensemble de données COCO, 327 929 paires questions-réponses, 1 311 756 questions à choix multiples générées par l'homme et 561 459 bases d'objets couvrant 36 579 catégories.

Les questions de Visual7W consistent principalement en quoi, où, comment, quand, qui, pourquoi et lequel. Les questions sont à choix multiples et chaque question a quatre réponses possibles.

Visual7W.torrent
Partage 1Téléchargement 1Terminés 397Téléchargements totaux 510
  • Visual7W/
    • README.md
      1.34 KB
    • README.txt
      2.68 KB
      • data/
        • dataset_v7w_grounding_annotations.zip
          7.07 MB
        • dataset_v7w_pointing.zip
          18.56 MB
        • dataset_v7w_telling.zip
          24.2 MB
        • visual7w-toolkit
          24.39 MB
        • visual7w_images.zip
          1.76 GB