WSVD 网络立体视频数据集

WSVD 全称 Web Stereo Video Dataset,由来自 YouTube 的 553 个立体视频组成,包含各种各样的场景类型,并具有许多非刚性对象,非刚性对象中人占比最多。该数据集可用于学习非刚性场景的重建,研究计算包含大量非刚性对象的单目视频序列的深度这一领域。

How2 多语言视频数据集

这是一个关于多语言视频数据集,包含 13,500 个视频,300 小时演讲,视频均带有英文字幕和的葡萄牙语翻译。其中 185,187 个语料用于训练、2,022 个语料用于开发(dev)、2,361 个语料用于测试。该数据集可用于研究多模态语言理解。

TAO 多目标跟踪数据集

TAO 全称 Tracking Any Object Dataset,是一个用于跟踪任何对象的联合数据集。 TAO 数据集由 2,907 个不同环境的高清视频组成,平均长度 36.8 秒,包含 833 个类别。对比现有的目标跟踪数据集,TAO 数据集样本种类更加丰富。 该数据集通…

OK-VQA 问答数据集

OK-VQA 全称 Outside Knowledge Visual Question Answering,包括 14,000 多个需要外部知识才能回答的问题。 该数据集被用于解决基于知识的视觉问答任务。该数据集基于 VQA 数据集,原数据集中图像内容并不足以回答问题,新数据集鼓…

CarFusion 光流跟踪数据集

CarFusion 数据集 53,000 张图片和 100,000 个汽车实例(轿车、suv、公共汽车和卡车)。图片是在宾夕法尼亚州匹兹堡多个十字路口的 18 个移动摄像机拍摄的。该数据集还提供了人工标注的 14 个语义关键点。

ArtBench-10

ArtBench-10 是一个类平衡的、高质量的、干净标注的、标准化的数据集,用于对艺术品生成进行基准测试。该数据集包括来自 10 种独特艺术风格的 60,000 张艺术品图像,每种风格有 5,000 张训练图像和 1,000 张测试图像。 与以前的艺术品数据集相比,ArtBen…

Violin 视频和语言推理数据集

Violin 全称 VIdeO-and-Language INference,可用于对视频和文本进行多模态理解的任务。 该数据集包含来自 15,887 个视频剪辑的 95,322 个视频-假设对,包括超过 582 小时的视频。这些视频剪辑包含丰富内容,具有不同时间动态、事件变化和…

CMU Panoptic 姿态估计数据集

CMU Panoptic 是一个大规模的姿态估计数据集,为参与社交活动的人提供 3D 姿势标注。该数据集包含 65 个带有多视角标注的视频(总时长 5.5 小时),但其中只有 17 个视频涉及多人场景并带有摄像机参数。

Multi-PIE 面部图像数据集

Multi-PIE 全称 Multi Pose, Illumination, Expressions,是一个由 337 名被试者在不同姿态、光照条件和表情下拍摄的面部图像组成的数据集。 姿势范围捕捉到脸部轮廓的变化,包含 15 个离散视图。光照条件的变化是用位于房间不同地方的 1…

Charades 日常活动数据集

Charades 数据集包含人们进行日常活动的真实视频。该数据集由 9,848 个平均长度为 30 秒的日常室内活动视频组成,涉及 15 种室内场景、46 个对象类别的交互,包含 30 个动词及 157 个动作类别。 该数据集中的每个视频都带有标注:多个自定义文本描述、动作标签、…

CMU Monocular MoCap 单眼视图模型数据集

Monocular MoCap数据集是由CMU卡内基梅隆大学提供,包含40个对象在多个摄像头下的3D模型数据。该数据集录制于Panoptic Studio,也属于Panoptic Studio数据集中的一个子集,此数据集可用于对于图像的3D建模任务。

CMU Hand 手势数据集

Hand数据集是由CMU卡内基梅隆大学提供,用以学习人类手势的识别。该数据集包含真实影像中手动添加关键点的双手、合成影像中含关键点的双手,以及来自于Panoptic Studio多摄像头角度所录制的双手数据。该数据集可被用于视频中标识双手关键点、解析动作等问题的研究。

Face-in-Action 面部视频数据集

Face-in-Action Dataset 是具有成像变化的面部视频数据集,其涵盖来自 180 名参与者的 20 秒面部视频数据,主要用于模仿护照检查方案,相关视频由 3 个不同角度的 6 个同步摄像机捕获(每个角度的焦距为 8mm 和 4mm),图像采集于受限的室内环境和开放…

Multi-PIE 多视点人脸图像数据集

MultiPie Dataset 是一个多视点人脸图像数据集,其主要用于身份鉴定,是 PIE 数据库的替代品,其包含在 15 个视点下捕获的 337 个主题,其中涵盖共计超过 750,000 个图像,该数据集由卡耐基·梅隆大学于 2009 年发布。 PIE 数据库由卡耐基·梅隆大…