ViTT 密集视频描述数据集

本站暂不支持该数据集下载,如需下载请访问上述「发布地址」进行下载(如可用)

ViTT 全称 Video Timeline Tags,由 8,169 个视频组成,并带有人工生成的 segment-level 标注组成。其中,5,840 个视频被标注一次,其余视频被标注两次或更多。该数据集共发布了 12,461 组标注。该数据集中的视频来自 Youtube-8M 数据集。