Command Palette

Search for a command to run...

Verse-Bench 视听联合生成评测数据集

日期

19 天前

机构

StepFun 阶跃星辰
The Hong Kong University of Science and Technology(GuangZhou)

论文链接

2509.06155

许可协议

Apache 2.0

加入 Discord 社区

Verse-Bench 是由 StepFun 联合香港科技大学、香港科技大学(广州)等机构于 2025 年发布的一个用于评估音频与视频联合生成的基准数据集,相关论文成果为「UniVerse-1: Unified Audio-Video Generation via Stitching of Experts」,旨在推动生成模型不仅能生成视频,还能在时间上与音频内容(包括环境音与语音)保持严格对齐。

该数据集包含 600 对图像-文本提示对,来源包含 YouTube 、 Bilibili 、 TikTok 视频帧、电影/动漫截图、 AI 模型生成图像,以及公开网页图像。

数据分布

该数据集被拆分为三个子集(Set1-I 、 Set2-V 、 Set3-Ted),涵盖多种音频类别,例如人声、动物叫声、器乐、自然声音、人与物体交互声、物体撞击、机械噪声等,分别适用于不同场景与内容类型。具体分布如下:

  • Set1-I 包含图像 – 文本对,其中图像包括 AI 生成图像、网页抓取、媒体截图,共 205 个样本。每个样本的图像被用作视觉输入,其对应的视频/音频字幕与语音内容由大语言模型(LLM)与人工标注生成。
  • Set2-V 包含来自 YouTube 和 BiliBili 的短视频片段,共 295 个样本,这些片段配有由 LLM 生成的字幕和使用 Whisper 进行自动语音识别(ASR)的转录文本,并经过人工验证。
  • Set3-Ted 包含 2025 年 9 月的 TED 演讲视频,共 100 个样本,采用与 Set2 相同的标注流程。
数据集示例

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供