Vript 英文视频-文本数据集

下载帮助
特色图像

Vript 是一个具有高分辨率视频的细粒度视频文本数据集,它包含 12k 个经过注释的视频,总共超过 420k 个剪辑片段。 Vript 数据集的每个片段都配有大约 145 个单词的标题,这比大多数视频文本数据集的注释要长得多,提供了更为详细和密集的描述。这个数据集的注释灵感来源于视频脚本,类似于在制作视频前编写的脚本来组织如何拍摄场景。

与以往的视频文本数据集不同,Vript 不仅记录视频内容,还包括镜头类型(如中景、特写等)和摄像机的运动(如平移、倾斜等),从而增强了视频字幕的丰富性。此外,Vript 还将旁白转录成文字,与视频标题一起提供,为视频注释提供更多背景信息。

该数据集是由上海交通大学、北京航空航天大学和小红书团队于 2024 年发布的,相关论文成果为「Vript: A Video Is Worth Thousands of Words