Soul-Bench 音频驱动人体动画评测数据集
Soul-Bench 是由腾讯优图实验室于 2025 年发布的一个面向音频驱动人体动画任务的评测基准,相关论文成果为 Soul: Breathe Life into Digital Human for High-fidelity Long-term Multimodal Animation,旨在系统评估相关方法在真实应用场景下的生成质量、一致性与泛化能力。
该数据集共包含 226 条视频测试样本,在多个维度上具有较为丰富的分布,具体如下:
- 主体类型分布
- 上半身场景:107 条
- 全身场景:72 条
- 人像、动画角色及动物:47 条
- 音频类型分布
- 对话类音频:177 条
- 演唱类音频:49 条
- 视频分辨率分布
- 1080P:118 条
- 720P:55 条
- 4K:51 条
- 480P:2 条
- 画面比例分布
- 1 < r ≤ 2:170 条
- r = 1(正方形):44 条
- 0.5 ≤ r < 1(纵向):12 条
- 视频时长分布
- 27–30 秒区间:70 条
