HyperAIHyperAI

Command Palette

Search for a command to run...

控制台

Vript 英文视频-文本数据集

加入 Discord 社区
Featured Image

Vript 是一个具有高分辨率视频的细粒度视频文本数据集,它包含 12k 个经过注释的视频,总共超过 420k 个剪辑片段。 Vript 数据集的每个片段都配有大约 145 个单词的标题,这比大多数视频文本数据集的注释要长得多,提供了更为详细和密集的描述。这个数据集的注释灵感来源于视频脚本,类似于在制作视频前编写的脚本来组织如何拍摄场景。

与以往的视频文本数据集不同,Vript 不仅记录视频内容,还包括镜头类型(如中景、特写等)和摄像机的运动(如平移、倾斜等),从而增强了视频字幕的丰富性。此外,Vript 还将旁白转录成文字,与视频标题一起提供,为视频注释提供更多背景信息。

该数据集是由上海交通大学、北京航空航天大学和小红书团队于 2024 年发布的,相关论文成果为「Vript: A Video Is Worth Thousands of Words

用 AI 构建 AI

从构思到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格加速您的 AI 开发。

AI 协同编码
可直接使用的 GPU
最佳价格

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供