WSVD 全称 Web Stereo Video Dataset,由来自 YouTube 的 553 个立体视频组成,包含各种各样的场景类型,并具有许多非刚性对象,非刚性对象中人占比最多。该数据集可用于学习非刚性场景的重建,研究计算包含大量非刚性对象的单目视频序列的深度这一领域。
机构: Carnegie Mellon University
How2 多语言视频数据集
这是一个关于多语言视频数据集,包含 13,500 个视频,300 小时演讲,视频均带有英文字幕和的葡萄牙语翻译。其中 185,187 个语料用于训练、2,022 个语料用于开发(dev)、2,361 个语料用于测试。该数据集可用于研究多模态语言理解。
TAO 多目标跟踪数据集
TAO 全称 Tracking Any Object Dataset,是一个用于跟踪任何对象的联合数据集。 TAO 数据集由 2,907 个不同环境的高清视频组成,平均长度 36.8 秒,包含 833 个类别。对比现有的目标跟踪数据集,TAO 数据集样本种类更加丰富。 该数据集通…
OK-VQA 问答数据集
OK-VQA 全称 Outside Knowledge Visual Question Answering,包括 14,000 多个需要外部知识才能回答的问题。 该数据集被用于解决基于知识的视觉问答任务。该数据集基于 VQA 数据集,原数据集中图像内容并不足以回答问题,新数据集鼓…
PATS 手势识别数据集
PATS 全称 Pose Audio Transcript Style,由多样化且大量对齐的姿势、音频和文字记录组成。该数据集包含 25 个人的语音记录,总计 250 个小时以上,并且手势匹配。
CarFusion 光流跟踪数据集
CarFusion 数据集 53,000 张图片和 100,000 个汽车实例(轿车、suv、公共汽车和卡车)。图片是在宾夕法尼亚州匹兹堡多个十字路口的 18 个移动摄像机拍摄的。该数据集还提供了人工标注的 14 个语义关键点。
ArtBench-10
ArtBench-10 是一个类平衡的、高质量的、干净标注的、标准化的数据集,用于对艺术品生成进行基准测试。该数据集包括来自 10 种独特艺术风格的 60,000 张艺术品图像,每种风格有 5,000 张训练图像和 1,000 张测试图像。 与以前的艺术品数据集相比,ArtBen…
Violin 视频和语言推理数据集
Violin 全称 VIdeO-and-Language INference,可用于对视频和文本进行多模态理解的任务。 该数据集包含来自 15,887 个视频剪辑的 95,322 个视频-假设对,包括超过 582 小时的视频。这些视频剪辑包含丰富内容,具有不同时间动态、事件变化和…
CMU Panoptic 姿态估计数据集
CMU Panoptic 是一个大规模的姿态估计数据集,为参与社交活动的人提供 3D 姿势标注。该数据集包含 65 个带有多视角标注的视频(总时长 5.5 小时),但其中只有 17 个视频涉及多人场景并带有摄像机参数。
Multi-PIE 面部图像数据集
Multi-PIE 全称 Multi Pose, Illumination, Expressions,是一个由 337 名被试者在不同姿态、光照条件和表情下拍摄的面部图像组成的数据集。 姿势范围捕捉到脸部轮廓的变化,包含 15 个离散视图。光照条件的变化是用位于房间不同地方的 1…
Charades 日常活动数据集
Charades 数据集包含人们进行日常活动的真实视频。该数据集由 9,848 个平均长度为 30 秒的日常室内活动视频组成,涉及 15 种室内场景、46 个对象类别的交互,包含 30 个动词及 157 个动作类别。 该数据集中的每个视频都带有标注:多个自定义文本描述、动作标签、…
CMU Monocular MoCap 单眼视图模型数据集
Monocular MoCap数据集是由CMU卡内基梅隆大学提供,包含40个对象在多个摄像头下的3D模型数据。该数据集录制于Panoptic Studio,也属于Panoptic Studio数据集中的一个子集,此数据集可用于对于图像的3D建模任务。
CMU Hand 手势数据集
Hand数据集是由CMU卡内基梅隆大学提供,用以学习人类手势的识别。该数据集包含真实影像中手动添加关键点的双手、合成影像中含关键点的双手,以及来自于Panoptic Studio多摄像头角度所录制的双手数据。该数据集可被用于视频中标识双手关键点、解析动作等问题的研究。
Face-in-Action 面部视频数据集
Face-in-Action Dataset 是具有成像变化的面部视频数据集,其涵盖来自 180 名参与者的 20 秒面部视频数据,主要用于模仿护照检查方案,相关视频由 3 个不同角度的 6 个同步摄像机捕获(每个角度的焦距为 8mm 和 4mm),图像采集于受限的室内环境和开放…
Multi-PIE 多视点人脸图像数据集
MultiPie Dataset 是一个多视点人脸图像数据集,其主要用于身份鉴定,是 PIE 数据库的替代品,其包含在 15 个视点下捕获的 337 个主题,其中涵盖共计超过 750,000 个图像,该数据集由卡耐基·梅隆大学于 2009 年发布。 PIE 数据库由卡耐基·梅隆大…