MNIST Dataset 是一个手写数字数据集,其包含 60,000 个示例训练集和 10,000 个示例测试集,它主要用于机器视觉领域的图像分类,该数据集中的数字已经过尺寸标准化处理,并以固定尺寸的图像为中心。 MNIST Dataset 由纽约大学库兰特研究所、谷歌纽约实验…
机构: Google
MNIST 手写数字数据集
Meta-Dataset 小样本学习数据集
Meta-Dataset 是一个大型的小样本学习基准。该数据集不对小样本任务做限制(不要求必须具备固定的方式及镜头),因此代表了一个更真实的场景。 该数据集由来自不同领域的 10 个数据集组成: ILSVRC-2012 (ImageNet 数据集,由涉及 1,000 个类别的自然…
Visual Wake Words 图像分类数据集
Visual Wake Words 是一个常见的微控制器视觉用例,用于识别图像中是否存在人。该数据集评估了 minival image ID 的准确性,并使用 COCO 数据集中的 115k 张图像进行训练。 Visual Wake Words 为微型视觉模型提供了一个现实的基准…
YouTube-8M 带标签视频数据集
YouTube - 8M 是一个带标签的大型视频数据集,它由数百万个 YouTube 视频 ID 组成,包含的 3800 多个可视化实体注释均由机器基于词汇表生成,预先计算的特点让其可被用于单硬盘,这也意味着使用单 GPU 在该数据集上训练基线模型成为可能。 同时,数据集的规模和…
Google Landmarks Dataset v2
Google Landmarks Dataset v2 是用于地标识别和图像恢复实验的数据集,其中包含人造和自然地标的标签注释图像,该版本的数据集包含约 500 万张图像,并分为训练、索引和测试 3 组。
Open Images Dataset 图像数据集
Open Images Dataset 包含约 900 万张标注图片,拥有 6000 个类别的标签,平均每张图像有 8 个标签,其分为包含 9,011,219 张图像的训练集、41,620 张图像的验证集和 125,436 张图像的测试集,它比拥有 1000 个类别标签的 Ima…
MIAP 行人检测图像数据集
MIAP 全称 More Inclusive Annotations for People,是 Open Images 数据集中一个子集的拓展,共包含 10 万张图像(7 万张来自训练集,3 万张来自测试/验证集)。图像中的所有可见人物均标注边界框和属性,属性包括性别(主要是女性…
WIT 图像-文本数据集
WIT 全称 Wikipedia-based Image Text,是一个大型多模态多语言数据集。该数据集由 3,760 万个实体丰富的图像-文本示例的精选集组成,其中包含 108 种 Wikipedia 语言中的 1,150万 个唯一图像。该数据集的规模使其可以用作多模态机器学…
Google Landmarks 地标数据集
Google Landmarks 谷歌地标数据集,包含来自12,894 个地标的 1,060,709 张图像以及 111,036 张额外的查询图像。该数据集中的图像是在世界各地拍摄的。每张图像都与一个GPS坐标相关。这个数据集用于训练和评估大规模图像检索模型。
Quick, Draw! 绘画数据集
Quick, Draw! Dataset 是 5000 万幅绘画作品的集合,这些作品共有 345 类,由游戏 Quick, Draw! 的玩家创作提供。这些作品被收录为时间戳向量,并用元数据进行标注,包括游戏中玩家收到的创作要求、玩家所在的国家。
YT-UGC 用户生成内容数据集
YT-UGC 全称 YouTube UGC,是一个大规模的用户生成内容数据集。该数据集包含从 150 万个上传视频中挑选出 1,500 个视频。这些视频被分为 15 个类别,每一个视频都含有不同的分辨率和码率。 每一个视频都有经过主观实验得到的 MOS 分数,对于一些比较流行的类…
ACID 空中海岸线图像数据集
ACID 是一个空中海岸线图像数据集,其中包含有相机参数丰富的自然场景数据。该数据集包含来自 YouTube 的数千个涉及不同海岸线和自然场景的空中无人机视频。通过运行 structure-from-motion 来获得相机位置,并以与 RealEstate10k 数据集相同的格…
YouTube-100M 视频分类数据集
YouTube-100M 数据集包含 1 亿个 YouTube 视频。其中包括 7,000 万个训练视频,1,000 万个评估视频,以及 2,000 万个验证视频。每个视频平均 4.6 分钟,总共有 540 万个训练小时。 该数据集涵盖超过 30K 个类别标注,标注是根据每个视频…
Kinetics-600 动作分类数据集
Kinetics-600 是一个大规模动作识别数据集,是 Kinetics-400 数据集的一个扩展。该数据集由涵盖 600 个动作类别的约 48 万个视频组成。这些视频被分为 390K、30K、60K,分别用于训练集、验证集和测试集。数据集中的每个视频都是 10 秒动作片段,由…
CxC 图像字幕数据集
CxC 全称 Crisscrossed Captions,是一个图像字幕数据集,包含 247,315 个人工标记的标注。 该数据集使用图像-文本对,文本-文本对和图像-图像对的语义相似性评级扩展了 MS-COCO 数据集的开发和测试范围。