ClevrTex 是用于比较、评估和分析无监督多物体分割算法的合成图像数据集。该数据集包含 60 种材料创建的 5,0000 张图像,图像描述了在合成背景上排列的 3-10 个物体。其中测试集有 25 种不同材料创建的 1,0000 张图像。该数据集的合成场景是基于物理相关技术获…
机构: University of Oxford
VGG-SS 声源定位数据集
VGG-SS 全称 VGG Sound Source,是关于评估声源定位的视频数据集。该数据集包含 200 多个类别、5000 个视频以及 VGG-Sound 数据集的新标注,比现有数据集大 10 倍。每个视频片段中的可见声源都被边界框明确标注。与 Flickr SoundNet…
SensatUrban 城市规模点云数据集
SensatUrban 是一个城市规模的摄影测量点云数据集。数据集选取三个英国城市(伯明翰,剑桥以及约克)7.6 平方公里的区域,标注了近30亿个语义标注点。该数据集中每个点都被标注为 13 个语义类别之一,例如地面、植被、汽车等。
Oxford105k 牛津建筑图像数据集
Oxford105k 数据集由 5,062 张图像组成,这些图像是在 Flicker 上搜索特定的牛津地标得到的。该数据集经过人工标注,为 11 个不同的地标生成了全面的 ground truth,每个地标有 5 个相关的查询结果,共有 55 个查询结果。该数据集用于评估大规模目…
PhysioNet Challenge 2012 医学数据集
PhysioNet Challenge 2012 是一个公开可用的医学数据集,包含 8000 名 ICU 患者的脱敏记录,每条记录由大约 48 小时的多元时间序列数据 (multivariate time series data) 组成,记录了患者在住院期间不同时间段的 37 个…
WebVid 大型短视频数据集
WebVid 是一个大型短视频数据集,该数据集视频多种多样,内容丰富。数据集包含 1000 万个带字幕视频且视频总时长约 5.2 万小时。
Oxford-Affine 小规模图像数据集
Oxford-Affine 是一个小规模数据集,包含 8 个场景,每个场景有 6 幅图像的序列。同一个序列中的图像通过同源关系联系起来。
Oxford Radar RobotCar 雷达数据集
Oxford Radar RobotCar 是 Oxford RobotCar 数据集的雷达扩展数据集。数据是通过观测英国牛津中部的一条路线获得的。这些数据是在 2019 年 1 月收集的,穿越牛津市中心的一条路线 32 次,总共 280 公里的城市驾驶。该数据集包含各种天气、交…
CMD 电影数据集
CMD 全称 Condensed Movies Dataset,由 3K 多部电影中的关键场景组成:每个关键场景都附有场景的高级语义描述、人物脸部轨迹和电影的元数据。该数据集是可扩展的,从 YouTube 自动获取,任何人都可以免费下载使用。
e-SNLI-VE 大规模视觉语言数据集
e-SNLI-VE 是一个带有自然语言解释(natural language explanations)的大规模视觉语言数据集,其中包含超过 43 万个实例,所有的解释都是基于图像内容的。该数据集是通过合并 e-SNLI 数据集的解释和 SNLI-VE 数据集的图像-句子对而建立…
Oxford-IIIT Pets 宠物图像数据集
Oxford-IIIT Pets 是一个宠物图像数据集。该数据集涉及 37 个类别(其中犬类 25 类,猫类 12 类),每个类别大约有 200 张图片。这些图像在比例、姿势和光照条件方面有很大的差异。所有图像都有一个相应的 ground truth 标注,包括品种、头部 ROI…
FGVC- Aircraft 飞机精细视觉分类数据集
FGVC-Aircraft 全称 Fine-Grained Visual Classification of Aircraft,是一个飞机分类数据集。该数据集中每张飞机图像都用 bounding box 和模型标签进行了标注。 该数据集包括 10,200 张飞机图像(102 种飞…
CIFAR-FS 分类图像数据集
CIFAR-FS 全称 CIFAR100 few-shots,是通过使用生成 miniImageNet 的相同标准从 CIFAR-100 数据集中随机抽取的。该数据集共包含 100 个类别,其中每个类别 600 张图像,合计 60,000 张图像。 平均来说,类别之间的相似度很高…
DTD 纹理识别数据集
DTD 全称 Describable Textures Dataset,是一个不断更新的纹理数据集,由 5,640 张图像组成,根据人类感知分为 47 个类别,每个类别有 120 张图像,对于每一个图像还提供关键属性和联合属性列表。 该数据集目的在于进一步了解智能系统如何处理、分…
VoxCeleb1 声纹识别数据集
这是一个大规模且与文本无关的声纹识别数据集,包含来自 YouTube 视频中 1,251 位名人的 10 万条语音。 示例数据: Verification split: devtest# of speakers1,21140# of videos21,819677# of utt…