ShapeWorld 是一个新型多模态深度学习模型评估方法和框架,侧重于形式语义风格的泛化能力。在这个框架中,人工数据是根据预定义的规范自动生成的。这种受控的数据生成使得在评估过程中引入以前看不见的实例配置成为可能,因此需要系统以新颖的方式重新组合所学到的概念。 麻省理工大学发布…
机构: MIT
GazeFollow 视线追踪数据集
GazeFollow 是一个大型数据集,标注了图像中人眼注视的位置,其图像源自几个包含人类图像的数据集: 来自 SUN 数据集的 1,548 张图像来自 MS COCO 数据集的 33,790 张图像来自 Actions 40 数据集的 9,135 张图像来自 PASCAL 数据…
Music21 音乐视频数据集
Music21 是一个未经修剪的视频数据集,通过关键字从 YouTube 爬取。它包含 21 个类别的音乐表演,数据质量较高,可用于训练和评估视觉声源分离模型 (visual sound source separation model)。
Memento10k 动态视频记忆数据集
Memento10k 是一个动态视频记忆数据集,包含 10,000 个时长为 3 秒的视频。每个视频都有超过 90 个人类标注,该数据集的对分信度 (split-half consistency) 是0.73(在视频记忆性数据集中是最好的)。
SUN09 图像分割数据集
SUN09 数据集由 12,000 张带标注的图像组成,包含 200 多个对象类别。该数据集包含了自然、室内和室外图像。每幅图像平均包含 7 个不同的标注对象,每个对象的平均占用面积是图像大小的 5 %。物体类别的频率遵循幂律分布。 该数据集包含了两大基准: 用于评估总体的目标识…
Gaze360 视线追踪数据集
Gaze360 是一个大规模视线追踪数据集,包括 238 名受试者在室内与室外环境中,大范围头部动作及距离变化中,进行 3D 视线追踪标记。此数据集是同类数据集中按主题与种类划分的最大公开数据集。
MIMIC-III 第三版重症监护医疗信息数据集
MIMIC-III 全称 The Medical Information Mark for Intensive Care III,是一个大型的脱敏医疗记录数据集,可公开使用。其中数据包括生命体征、药物、实验室测量、护理人员记录的患者体征、体液平衡、程序编码、诊断编码、影像报告、住…
Indoor Scene Recognition 室内场景识别数据集
该数据集包含 67 个室内类别,总共有 15,620 张图片。不同类别的图片数量不同,每个类别至少有 100 张图片。所有图片都是 jpg 格式。 该数据集包含一个子集,每个类别都有相同数量的训练和测试样本。子集被分割并用它们包含的对象以 LabelMe 格式进行标注。
Vimeo-90K 视频处理数据集
Vimeo-90K 是一个大规模高质量视频数据集,用于处理低级别视频。 该数据集包含从 vimeo.com下载的 89,800 个视频片段,涵盖了各种场景和动作,可用于解决视频插帧、视频降噪、视频去块 (video deblocking) 及视频超分辨率四种视频处理任务。 Ful…
ObjectNet 大规模偏差控制数据集
ObjectNet 是一个通过众包形式收集的大型图像测试集。由于 ObjectNet 的图像均来自真实世界,因此目标物体形态各异,背景、旋转角度及成像视角都是随机的,这可能会严重降低识别效果。 该测试集包括 50,000 张旋转、背景和视角各异的图像,包括 313 个物体类别,其…
Place365-Challenge-2016 图像分类数据集
Place365-Challenge-2016数据集为Place365-Standard数据集的扩充版,包含了620万张额外的图像照片,训练集中总计共有800万张相片。Place365系列数据集是由MIT发布,帮助场景分类的数据集。该数据集应用范围广泛,数据庞大,对于场景分类型模…
Place365-Standard 图像分类数据集
Place365-Standard数据集是由MIT发布,帮助场景分类的数据集。该数据集包括180万张训练照片来自于365类场景,被用以卷积神经网络加以训练。该数据集应用范围广泛,数据庞大,对于场景分类型模型具有强大的帮助性
Places-Extra69 图像分类数据集
Places-Extra69数据集为Place365数据集的额外扩充版,包含69种额外场景分类。该数据集包括98721张训练图片和6600张测试图片,对于之前版本的Place365数据集进行了进一步的扩充。Place365系列数据集是由MIT发布,帮助场景分类的数据集。该数据集应…
MIT300 眼球追踪数据集
MIT300数据集包含300张自然图像,因官方未发布39位观测者对于每一张图片的眼球追踪数据,该数据集仅可被作为测试数据集使用,并不能训练模型。使用者可以开发研究眼球追踪类模型并以此数据集作为测试集,发送邮件至saliency@mit.edu得到官方反馈。详情请浏览http://…
TIMIT 方言录音数据集
TIMIT 数据集由 8 种主要美国英语方言共 630 个录音片段组成,其中每个方言都有 10 个语音丰富的句子。 TIMIT 语料库包括时间对齐的正交,语音和单词转录以及每个话语的 16kHz 语音波形文件。 该数据集由麻省理工学院、SRI 国际和德州仪器公司于 1993 年发…