KITTI-360 自动驾驶数据集

KITTI-360 是一个具有丰富感知信息 (sensory information) 和完整标注的大规模数据集。它包括在 73.7 公里的行驶距离内,产生的 32 万张图像和 10 万个激光扫描文件。 在 KITTI 数据集基础上,KITTI-360 提供了更全面的 2D 及 …

EgoCap 姿态估计数据集

EgoCap 全称 Egocentric Maker-less Motion Capture,是关于全身骨骼姿态估计的图像数据集,由 8 位穿着不同的受试者的 10 万张 egocentric 图像组成。其中 6 位受试者的 7.5 万张图像用于训练,2 位受试者的 2.5 万张…

MuCo-3DHP 多人 3D 姿态估计数据集

MuCo-3DHP 是一个预测多人 3D 姿态的数据集。该数据集使用了新颖的遮挡修复姿势图 (ORPM),即使在严重遮挡的情况下,也能进行全身的姿态估计。数据集包含复杂的多人互动和遮挡关系的真实图像。

DAQUAR 真实世界图像问答数据集

DAQUAR,全称 DAtaset for QUestion Answering on Real-world images,是一个关于图像的人类问答的数据集。该数据集的图像来自于 NYU-Depth v2 数据集,都是关于室内场景的 RGBD 图像,其中 795 张用于训练,65…

LSMDC 视频描述数据集

LSMDC 全称 Large Scale Movie Description Challenge。该数据集包含了从 202 部电影中提取的 118,081 个短视频片段。每个视频都附有字幕,有的是从电影剧本中提取的,有的是通过 DVS(专为视障人士提供的口述影像服务)转录的。 验…

CityPersons 城市行人识别数据集

CityPersons 是 Cityscapes 数据集的一个子集,只包含人物标注。该数据集包含 2,975 张用于训练的图片,500 用于验证的图片和 1,575 张用于测试的图片。每张图片中平均有 7 个行人,并提供了可见区域和全身的标注。