Visual7W 视觉问答数据集

数据集下载 磁力链 下载帮助

Visual7W 是一个图像内容理解的数据集,通过对图像区域的文字描述和互相之间的关联,进行视觉问答 (Visual Question Answering) 任务,数据集中不仅包含图像本身,还包括图像区域内容相关的问答。

Visual7W 是 Visual Genome 数据集的一个子集,包含 47,300 张 COCO 数据集图像,327,929 个问答对,1,311,756 个人类生成的多选题,以及涵盖 36,579 个类别的 561,459 个 object groundings。

Visual7W 的问题主要由 What, Where, How, When, Who,Why, 以及 Which 构成。问题为多选,每个问题都有四个候选答案。

1 做种 0 下载 29 已完成
  • Visual7W/README.md 1.34 KB
  • Visual7W/README.txt 1.34 KB
  • Visual7W/data/dataset_v7w_grounding_annotations.zip 7.07 MB
  • Visual7W/data/dataset_v7w_pointing.zip 11.48 MB
  • Visual7W/data/dataset_v7w_telling.zip 5.65 MB
  • Visual7W/data/visual7w-toolkit 195.58 KB
  • Visual7W/data/visual7w_images.zip 1.73 GB