Visual Genome Dataset 是一个通过众包密集图像标注,来连接语言和视觉的数据集,包含了多选环境下的 Visual Question Answering 数据。
该数据集包括 101,174 张 MSCOCO 图像的 170 万对 QA,平均每张图像 17 个问题。
相较于视觉问答 (Visual Question Answering) 数据集,Visual Genome 数据集的 6 类问题分布更均衡:What, Where, When, Who, Why 以及 How 。此外,Visual Genome 还展示了 10.8 万张密集标注了目标、属性和关系的图像。
做种 1
下载中 0
已完成 547
总下载 841