ViTT 全称 Video Timeline Tags,由 8,169 个视频组成,并带有人工生成的 segment-level 标注组成。其中,5,840 个视频被标注一次,其余视频被标注两次或更多。该数据集共发布了 12,461 组标注。该数据集中的视频来自 Youtube-8M 数据集。
ViTT 密集视频描述数据集
本站暂不支持该数据集下载,如需下载请访问上述「发布地址」进行下载(如可用)
感谢您下载 ViTT 密集视频描述数据集!
本站基于知识共享许可协议,为国内用户提供公开数据集高速下载,仅用于科研与学术交流。
获得数据集更新通知、下载过程发现问题、提供未引入数据集资源等,请关注公众号与我们沟通。
感谢您下载 ViTT 密集视频描述数据集!

相关数据集推荐
Aesthetic Visual Analysis 美学图像评估数据集
这是一个用于图像审美评估的数据集,包含 25 万多张图像以及丰富的元数据。该数据集共有66类语义标注以及 14 类摄影风格标注,每张图像均有美学评分。相较于现有的数据集,该数据集在标注的规模、多样性和异质性方面具有优势,可用于研究审美偏好计算模型。

How 2R 视频检索数据集
How 2R 是一个关于基于文本的视频检索数据集。数据集包含从 HowTo 100M 数据集的 9,371 个视频中收集了 24,328 个 60s 片段及其 51,390 个相关查询词,平均每个片段有 2-3 个相关查询词。其中 80% 的数据用于训练,10% 的数据用于验证,…

VALUE 视频语言理解评估数据集
VALUE 全称 Video-And-Language Understanding Evaluation,是一个关于视频和语言理解评估的数据集。该数据集是 11 个 VidL(视频和语言)数据集的集合,可用于3个常见任务:文本到视频检索;视频问题解答以及视频字幕。VALUE目标是…
