Command Palette

Search for a command to run...

Vript 英文视频-文本数据集

日期

1 年前

机构

Shanghai Jiao Tong University
北京航空航天大学

论文链接

arxiv.org

加入 Discord 社区
Featured Image

Vript 是一个具有高分辨率视频的细粒度视频文本数据集,它包含 12k 个经过注释的视频,总共超过 420k 个剪辑片段。 Vript 数据集的每个片段都配有大约 145 个单词的标题,这比大多数视频文本数据集的注释要长得多,提供了更为详细和密集的描述。这个数据集的注释灵感来源于视频脚本,类似于在制作视频前编写的脚本来组织如何拍摄场景。

与以往的视频文本数据集不同,Vript 不仅记录视频内容,还包括镜头类型(如中景、特写等)和摄像机的运动(如平移、倾斜等),从而增强了视频字幕的丰富性。此外,Vript 还将旁白转录成文字,与视频标题一起提供,为视频注释提供更多背景信息。

该数据集是由上海交通大学、北京航空航天大学和小红书团队于 2024 年发布的,相关论文成果为「Vript: A Video Is Worth Thousands of Words

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Vript 英文视频-文本数据集 | 数据集 | HyperAI超神经