Visual7W 是一个图像内容理解的数据集,通过对图像区域的文字描述和互相之间的关联,进行视觉问答 (Visual Question Answering) 任务,数据集中不仅包含图像本身,还包括图像区域内容相关的问答。
Visual7W 是 Visual Genome 数据集的一个子集,包含 47,300 张 COCO 数据集图像,327,929 个问答对,1,311,756 个人类生成的多选题,以及涵盖 36,579 个类别的 561,459 个 object groundings 。
Visual7W 的问题主要由 What, Where, How, When, Who,Why, 以及 Which 构成。问题为多选,每个问题都有四个候选答案。
做种 2
下载中 0
已完成 308
总下载 392