A3D 交通事故数据集

A3D 全称 AnAn Accident Detection,是一个全新的关于各种交通事故的数据集。识别交通违章和自动驾驶场景中的事故事件对于自动驾驶和驾驶员辅助系统至关重要。常见的交通事故视频往往假设摄像头固定,视频有静态背景,但这对于车载摄像头就不合理了。所以该数据集的视频基…

Sprites 游戏角色数据集

Sprite 又称 2D Video Game Character Sprites,是 2D 电子游戏当中的角色——精灵,而 Sprites 数据集则是该角色彩色图像集合,用于进行视觉类比研究。 该数据集包括了 672 只精灵,其中 500 只用于训练,100 只用于测试,72 …

RedCaps 图像文本对数据集

RedCaps 是一个大规模的图像-文本对 (image-text pair) 数据集,数据源自 Reddit,总数达 120 万。这些图片和文本描述了各种各样的物体和场景。 这些数据是从一组人为管理的 subreddit 集中收集的,subreddit 提供了粗略的图像标签,并…

PedX 3D 姿态估计数据集

PedX 数据集是一个大规模多模态数据集,是在复杂的城市交叉路口对行人进行采集的。 该数据集提供高分辨率的立体图像,以及带有手动添加的 2D 标注和自动添加的 3D 标注的 LiDAR 数据。此外,数据是使用两对立体相机和四个 Velodyne LiDAR 传感器进行的采集。

HEV-I 轨迹预测视频数据集

HHEV-I 全称 Honda Egocentric View-Intersection,包含 230 个在旧金山海湾地区不同十字路口的驾驶视频,这些视频由安装在车辆上的传感器采集(摄像头、GPS/IMU 和车辆状态信号)。该数据集可用于研究交通参与者的交互建模、未来目标定位、以…

HICO 人-物交互数据集

HICO 是一个人 - 物交互数据集, 全称 Humans Interacting with Common Objects,可作为识别图像中人-物交互的基准。该数据集共有 47,774 张图片,涵盖了 600 个人-物交互类型(包含了对 80 种常见物体进行的 117 种常见动作…

YouCook2 烹饪视频数据集

YouCook2 是视觉社区中最大的任务导向的教学视频数据集。该数据集由涉及 89 个食谱的 2,000 个YouTube 视频组成,均为未经剪辑的长视频。视频总时长为 176 小时,单个视频的平均长度为 5.26 分钟。每段视频的拍摄时间都在 10 分钟以内,由个人在自己家里用…

OASIS v2 单图像开放注释数据集

OASIS 全称 Open Annotations of Single Image Surfaces,是一个自然环境单图像 3D 数据集,包括 14 万张图像的详细 3D 几何标注。该数据集可用于在各种单图像 3D 任务上训练和评估模型性能。 OASIS V2 为该数据集的第二版…

HICO 图像语义分割数据集

HICO数据集是由密歇根大学发布,包含图片文件与一系列二进制数组用以表示标签,以二进制数来表示该图像是否存在这一系列行为动作标签分类。图像包含多个主题如自行车、马、手机电话等,行为动作标签则包含握、骑、坐、行走等。可被用于图像分类任务。

Collective Activity 集体活动视频数据集

Collective Activity 是一个集体活动的短视频数据集,它包含 5 种不同的集体活动,分别为交叉、步行、等待、交谈、排队以及 44 个短视频序列,其中一些是由消费者手持数码相机记录的。 该数据集于 2009 年由密歇根大学安娜堡分校电气工程系发布。 主要发布人:Wo…

Semantic Structure From Motion

Semantic Structure From Motion 适用于多视图的物体检测和识别,可被用于场景分割、自主导航、机器人、物体操纵于监视等应用中,对三维重建方法感兴趣的研究人员会比较关注这个数据集。