Command Palette
Search for a command to run...
Verse-Bench 是由 StepFun 联合香港科技大学、香港科技大学(广州)等机构于 2025 年发布的一个用于评估音频与视频联合生成的基准数据集,相关论文成果为「UniVerse-1: Unified Audio-Video Generation via Stitching of Experts」,旨在推动生成模型不仅能生成视频,还能在时间上与音频内容(包括环境音与语音)保持严格对齐。
该数据集包含 600 对图像-文本提示对,来源包含 YouTube 、 Bilibili 、 TikTok 视频帧、电影/动漫截图、 AI 模型生成图像,以及公开网页图像。
数据分布
该数据集被拆分为三个子集(Set1-I 、 Set2-V 、 Set3-Ted),涵盖多种音频类别,例如人声、动物叫声、器乐、自然声音、人与物体交互声、物体撞击、机械噪声等,分别适用于不同场景与内容类型。具体分布如下:
- Set1-I 包含图像 – 文本对,其中图像包括 AI 生成图像、网页抓取、媒体截图,共 205 个样本。每个样本的图像被用作视觉输入,其对应的视频/音频字幕与语音内容由大语言模型(LLM)与人工标注生成。
 - Set2-V 包含来自 YouTube 和 BiliBili 的短视频片段,共 295 个样本,这些片段配有由 LLM 生成的字幕和使用 Whisper 进行自动语音识别(ASR)的转录文本,并经过人工验证。
 - Set3-Ted 包含 2025 年 9 月的 TED 演讲视频,共 100 个样本,采用与 Set2 相同的标注流程。
 
