MIAP 全称 More Inclusive Annotations for People,是 Open Images 数据集中一个子集的拓展,共包含 10 万张图像(7 万张来自训练集,3 万张来自测试/验证集)。图像中的所有可见人物均标注边界框和属性,属性包括性别(主要是女性…
机构: Google
Visual Wake Words 图像分类数据集
Visual Wake Words 是一个常见的微控制器视觉用例,用于识别图像中是否存在人。该数据集评估了 minival image ID 的准确性,并使用 COCO 数据集中的 115k 张图像进行训练。 Visual Wake Words 为微型视觉模型提供了一个现实的基准…
WIT 图像-文本数据集
WIT 全称 Wikipedia-based Image Text,是一个大型多模态多语言数据集。该数据集由 3,760 万个实体丰富的图像-文本示例的精选集组成,其中包含 108 种 Wikipedia 语言中的 1,150万 个唯一图像。该数据集的规模使其可以用作多模态机器学…
Google Landmarks 地标数据集
Google Landmarks 谷歌地标数据集,包含来自12,894 个地标的 1,060,709 张图像以及 111,036 张额外的查询图像。该数据集中的图像是在世界各地拍摄的。每张图像都与一个GPS坐标相关。这个数据集用于训练和评估大规模图像检索模型。
Quick, Draw! 绘画数据集
Quick, Draw! Dataset 是 5000 万幅绘画作品的集合,这些作品共有 345 类,由游戏 Quick, Draw! 的玩家创作提供。这些作品被收录为时间戳向量,并用元数据进行标注,包括游戏中玩家收到的创作要求、玩家所在的国家。
YT-UGC 用户生成内容数据集
YT-UGC 全称 YouTube UGC,是一个大规模的用户生成内容数据集。该数据集包含从 150 万个上传视频中挑选出 1,500 个视频。这些视频被分为 15 个类别,每一个视频都含有不同的分辨率和码率。 每一个视频都有经过主观实验得到的 MOS 分数,对于一些比较流行的类…
ACID 空中海岸线图像数据集
ACID 是一个空中海岸线图像数据集,其中包含有相机参数丰富的自然场景数据。该数据集包含来自 YouTube 的数千个涉及不同海岸线和自然场景的空中无人机视频。通过运行 structure-from-motion 来获得相机位置,并以与 RealEstate10k 数据集相同的格…
YouTube-100M 视频分类数据集
YouTube-100M 数据集包含 1 亿个 YouTube 视频。其中包括 7,000 万个训练视频,1,000 万个评估视频,以及 2,000 万个验证视频。每个视频平均 4.6 分钟,总共有 540 万个训练小时。 该数据集涵盖超过 30K 个类别标注,标注是根据每个视频…
Kinetics-600 动作分类数据集
Kinetics-600 是一个大规模动作识别数据集,是 Kinetics-400 数据集的一个扩展。该数据集由涵盖 600 个动作类别的约 48 万个视频组成。这些视频被分为 390K、30K、60K,分别用于训练集、验证集和测试集。数据集中的每个视频都是 10 秒动作片段,由…
CxC 图像字幕数据集
CxC 全称 Crisscrossed Captions,是一个图像字幕数据集,包含 247,315 个人工标记的标注。 该数据集使用图像-文本对,文本-文本对和图像-图像对的语义相似性评级扩展了 MS-COCO 数据集的开发和测试范围。
Meta-Dataset 小样本学习数据集
Meta-Dataset 是一个大型的小样本学习基准。该数据集不对小样本任务做限制(不要求必须具备固定的方式及镜头),因此代表了一个更真实的场景。 该数据集由来自不同领域的 10 个数据集组成: ILSVRC-2012 (ImageNet 数据集,由涉及 1,000 个类别的自然…
Sports-1M 体育视频数据集
Sports-1M 数据集包含 100 多万个视频,视频是通过作者指定的 YouTube 网址获得的。 自数据集汇编以来,大约 7%(截至 2016 年)的视频已经被 YouTube 上传者删除。然而,数据集中仍包含超过一百万个视频,包含 487 个与体育相关的类别,每个类别有 …
dSprites 二维图形数据集
dSprites 全称 Disentanglement testing Sprites dataset,是一个由 6 个独立的 ground truth 潜在因子 (latent factor)按程序生成的 2D 图形数据集。这些 factor 包括某个角色的颜色、形状、比例、旋…
Kinetics 人类行为数据集
Kinetics 是一个大规模且高质量的以人类动作为主的 YouTube 视频链接数据集,包含 65 万个视频片段,依据数据集版本不同,分别涵盖 400/600/700 种人类行为分类。 这些动作以人为主,涵盖内容广泛,包括人与物体的交互,比如弹奏乐器,以及人与人之间的互动,如握…
AVSpeech – 视听语音数据集
AVSpeech是一个新的、大规模的视听数据集,包括没有干扰的背景噪音的语音视频片段。这些片段的长度为 3-10 秒,在每个片段中,原声带中的听到的声音,属于视频中可看见的唯一在说话的人。 该数据集包含大约 4700 小时的视频片段,来自 29 万个 YouTube 视频,涵盖了…