Visual7W 视觉问答数据集

日期

2 年前

大小

1.76 GB

机构

Stanford University

发布地址

ai.stanford.edu

许可协议

其他

特色图像

Visual7W 是一个图像内容理解的数据集,通过对图像区域的文字描述和互相之间的关联,进行视觉问答 (Visual Question Answering) 任务,数据集中不仅包含图像本身,还包括图像区域内容相关的问答。

Visual7W 是 Visual Genome 数据集的一个子集,包含 47,300 张 COCO 数据集图像,327,929 个问答对,1,311,756 个人类生成的多选题,以及涵盖 36,579 个类别的 561,459 个 object groundings 。

Visual7W 的问题主要由 What, Where, How, When, Who,Why, 以及 Which 构成。问题为多选,每个问题都有四个候选答案。

Visual7W.torrent

做种 2

下载中 0

已完成 308

总下载 392

  • Visual7W/
    • README.md
      1.34 KB
    • README.txt
      2.68 KB
      • data/
        • dataset_v7w_grounding_annotations.zip
          7.07 MB
        • dataset_v7w_pointing.zip
          18.56 MB
        • dataset_v7w_telling.zip
          24.2 MB
        • visual7w-toolkit
          24.39 MB
        • visual7w_images.zip
          1.76 GB