OpenViDial 是一个大规模多模态对话数据集。OpenViDial 从影视作品中提取对话转折和视觉语境,每一个对话转折都与所发生的视觉语境相匹配。 OpenViDial 数据集总共包含 110 万个对话回合,因此有 110 万个视觉上下文存储在图像中。
机构: Zhejiang University
LSVTD 视频文本理解数据集
LSVTD 全称 large-scale video text dataset,包含来自 21 个自然场景的 100 个视频。该数据集涵盖了广泛的 13 个室内(如书店、商场)和 9 个室外场景,其多样性是 IC15 数据集的 3 倍以上。
FaceWarehouse 3D 面部表情数据集
FaceWarehouse 是一个 3D 面部表情数据集,提供了 150 名受试者的面部几何形状,涵盖了广泛的年龄和种族背景。 人脸由 Kinect RGBD 摄像机拍摄,受试者年龄范围为 7-80 岁。 每个人包括中性和 19 个其它面部表情,如张嘴,微笑,接吻等。与之前的 3…
VidSTG 大规模视频接地数据集
VidSTG 数据集是一个基于 VidOR 数据集构建的时空视频接地数据集。VidOR 是一个视频关系数据集,包含 7,000、835 和 2,165 个视频,分别用于训练、验证和测试。时空视频接地(Spatio-Temporal Video Grounding task)任务的…
Q-Traffic 交通预测数据集
Q-Traffic是一个大规模的交通预测数据集,包括三个子集: query sub-dataset:采集自百度地图,包含大约 1.14 亿条用户查询。每个查询都记录了开始时间戳、开始位置坐标、目的地坐标、预估行程时长(分钟)。 traffic speed sub-dataset:…