SentiCap 图像情感描述数据集

SentiCap 数据集包含带有积极和消极情绪描述的图片。这些情感描述是由作者通过重写事实描述而生成的。总共有 2,000 多条情感描述。 SentiCap 数据集中的图像主要取自于 MS COCO 数据集。从情感的极性出发为图像提供标注,为每幅图像形成 “正面 (positiv…

Image Paragraph Captioning 图像描述数据集

Image Paragraph Captioning 数据集可用于评估为图像生成的描述片段。该数据集包含来自 Visual Genome 数据集的 19,561 张图片。每张图片包含一个段落。训练/评价/测试集分别包含14,575、2,487、2,489 张图像。 每张图像还包含…

UT Zappos50K 图像生成数据集

UT Zappos50K 是一个大型鞋类数据集。数据集包含从 Zappos.com 收集的 50,025 张目录图像 (catalog image),这些图像分为 4 个主要类别:鞋子、凉鞋、拖鞋和靴子,其次是功能类型和单个品牌。鞋子以白色背景为中心,并以相同的方向拍摄,便于分析…

2D-3D Match Dataset 数据集

2D-3D Match Dataset 是一个通过利用来自 RGB-D 扫描的几个 3D 数据集实现 2D-3D 对应的数据集。数据集使用来自 SceneNN 和 3DMatch 的数据。训练数据集由 110 个 RGB-D 扫描组成,其中 56 个场景来自SceneNN,54 …

VizWiz 盲人视觉问答数据集

VizWiz-VQA (Visual Question Answering) 是一个盲人视觉问答的图像数据集。盲人用户使用 VizWiz 软件拍摄一张照片,并记录一个关于该照片的口头问题和该问题的 10 个众包答案。该数据集用于解决以下两个问题,一是预测一个视觉问题的答案,二是判…

e-SNLI-VE 大规模视觉语言数据集

e-SNLI-VE 是一个带有自然语言解释(natural language explanations)的大规模视觉语言数据集,其中包含超过 43 万个实例,所有的解释都是基于图像内容的。该数据集是通过合并 e-SNLI 数据集的解释和 SNLI-VE 数据集的图像-句子对而建立…

HAM10000 皮肤影像数据集

HAM10000 是一个包含 10,000 张训练图像的数据集,用于检测色素性皮肤病变。作者收集了来自不同人群的皮肤镜图像,通过不同的方式获取和存储。 该基准数据集可用于机器学习诊断与人类专家进行比较。病例包括色素沉着病变领域中所有重要诊断类别的代表性集合。超过50%的病变已通过…

Visual Madlibs 图像描述数据集

Visual Madlibs 包含 360,001 个针对 10,738 幅图像的自然语言描述。该数据集使用已自动生成的空白填充模板收集一些目标描述,包括:人和物体、外貌、活动和互动、以及对一般场景或更广阔背景的推论。

CxC 图像字幕数据集

CxC 全称 Crisscrossed Captions,是一个图像字幕数据集,包含 247,315 个人工标记的标注。 该数据集使用图像-文本对,文本-文本对和图像-图像对的语义相似性评级扩展了 MS-COCO 数据集的开发和测试范围。

DocVQA 文档开放式问答数据集

DocVQA 是一个关于文档图像信息提取的开放式问答数据集。该数据集在对文件结构理解的问题上进行了改进。数据集包含在 12000 多个文件图像上定义了的 5 万个问题。

PASCAL-Scribble 数据集:语义分割数据集

PASCAL-Scirbble 数据集又称 ScribbleSup,是 PASCAL 数据集的扩展,带有用于语义分割的 scribble (即乱涂乱画的涂鸦)标注。标注遵循两种不同的协议。 在第一个协议中,PASCAL VOC 2012 集 (https://hyper.ai/d…

SUN09 图像分割数据集

SUN09 数据集由 12,000 张带标注的图像组成,包含 200 多个对象类别。该数据集包含了自然、室内和室外图像。每幅图像平均包含 7 个不同的标注对象,每个对象的平均占用面积是图像大小的 5 %。物体类别的频率遵循幂律分布。 该数据集包含了两大基准: 用于评估总体的目标识…