MADS 人体动作数据集

MADS数据集全称为Martial Arts, Dancing and Sports Dataset,由香港城市大学提供。该数据集包含5种分类,分别为太极、空手道、爵士舞、嘻哈舞以及运动,共计5万3千帧。该数据集的动作捕捉是由两名武术大师,两名舞者和一名运动员在使用多个摄像机或立…

PASCAL VOC DATASET

PASCAL VOC DATASET 由 Pascol VOC 项目组于 2012 年发布,其包含往届 PASCAL VOC 挑战赛的成果,同时这项挑战赛也与 2012 年完成最后一届。 PASCAL VOC 大赛是一项世界级计算机视觉挑战赛,该挑战赛由 Mark Evering…

UCF101 人类动作视频数据

UCF-101 是从 YouTube 收集的具有 101 个动作类别的数据集,它是具有 50 个动作类别数据集 UCF-50 的扩展。 UCF-10 数据集具有 101 个动作类别,共计 13320 个视频,其在动作方面提供多样性,并且存在以相机运动、物体外观、物体比例、姿势等方…

PoseTrack 多人视频姿态估计数据集

PoseTrack 是人类姿势估计和视频中的清晰跟踪的大规模基准,我们提供公开的培训和验证集以及评估服务器,用于对保留的测试集进行基准测试。 该数据集也是「ICCV 17」和「ECCV 18」研讨会挑战赛的基础。

MPII 人体姿势估计数据集

MPII 是用于评估人体姿势估计的数据集以及相关基准,拥有约 2.5 万张图像并且包含超过 4 万名具有注释关节的人,该数据集利用人类活动的既定分类法系统化收集图像。 总体来看,该数据集涵盖 410 种人类行为且每个图像都提供活动标签,每张图片均来自 YouTube 视频,并提供…

FLIC 影视人体检测数据集

FLIC 是从电影的帧中标记人物的图像数据集,其包含从主流好莱坞电影中收集的 5003 张图像。 训练图像来源于 30 部电影中运行的人物检测器,图片获取后由人工为其标注,包括 10 个上身关节,此外,图像中拥有 5 个中值标记以保证异常值注释具有鲁棒性。发布者会主动拒绝人被遮挡…

LSP (Leeds Sports Pose) 人体姿态估计数据集

Leeds Sports Pose 是一个体育姿势数据集,其被分为竞技、羽毛球、棒球、体操、跑酷、足球、排球和网球几类,共包含约 2000 个姿势注释,图像均来自于 Flickr 的运动人员。 通过对图像进行缩放,最突出的人长度约 150 像素,并且每个图像都注有 14 个联合位…

Okutama Action dataset 并发人体动作监测视频数据集

Okutama Action Dataset 是一个用于并发人体动作检测的视频数据集,其包含 43 分钟的完全注释序列和 12 个动作类别,该数据集可被用于多种任务:行人检测、时空动作检测和多人跟踪。 Okutama Action Dataset 由东京国家信息学研究所于 201…

PASCAL3D+ 3D 物体检测和姿态识别数据集

PASCAL 3D+ 是一个 3D 物体检测和姿态识别数据集,包括 PASCAL VOC 2012 中 12 个类别物体的 3D 标注,平均每个类别中包含 3000 个实例。 该数据集由斯坦福大学于 2014 年发布,相关论文有《Beyond PASCAL: A Benchmar…

Collective Activity 集体活动视频数据集

Collective Activity 是一个集体活动的短视频数据集,它包含 5 种不同的集体活动,分别为交叉、步行、等待、交谈、排队以及 44 个短视频序列,其中一些是由消费者手持数码相机记录的。 该数据集于 2009 年由密歇根大学安娜堡分校电气工程系发布。 主要发布人:Wo…

ITODD 工业 3D 物体检测数据集

MVTec ITODD 是用于 3D 物体检测和姿态估计的公共数据集,其重点关注工业设置和应用,该数据集由 28 个对象和 3500 个标记场景组成,场景中的对象实例均有 5 个传感器(两个 3D 传感器和三个灰度摄像机)进行收集。 该数据集由 MVTec Software Gm…

T-LESS 无纹理对象检测和 6D 姿态估计数据集

T-LESS 是被用于无纹理对象检测和 6D 姿态估计的 RGB-D 数据集,其被用于无纹理刚体对象 6D 姿态的估计。这套数据集拥有 30 个不同行业的对象,由于没有明显的纹理、可辨别的颜色和反射特性,因此物体在形状和尺寸上表现出对称性和相似性。 相较于其他数据集,T-LESS…

COCO 大型图像数据集

COCO 是一个大型图像数据集,其被用于机器视觉领域的对象检测与分割、人物关键点检测、填充分割与字幕生成。该数据集以场景理解为主,图像中的目标则通过精确的分割进行位置标定。 该数据集具有目标分割、情景感知和超像素分割三个特征,其包含 33 万张图像、150 万目标实例、80 个目…