日期

2 年前

数据集组织

论文 URL

标签

Vript 是一个具有高分辨率视频的细粒度视频文本数据集，它包含 12k 个经过注释的视频，总共超过 420k 个剪辑片段。 Vript 数据集的每个片段都配有大约 145 个单词的标题，这比大多数视频文本数据集的注释要长得多，提供了更为详细和密集的描述。这个数据集的注释灵感来源于视频脚本，类似于在制作视频前编写的脚本来组织如何拍摄场景。与以往的视频文本数据集不同，Vript 不仅记录视频内容，还包括镜头类型（如中景、特写等）和摄像机的运动（如平移、倾斜等），从而增强了视频字幕的丰富性。此外，Vript 还将旁白转录成文字，与视频标题一起提供，为视频注释提供更多背景信息。该数据集是由上海交通大学、北京航空航天大学和小红书团队于 2024 年发布的，相关论文成果为「Vript: A Video Is Worth Thousands of Words」