1 个月前
SpeakerVid-5M:一个大规模高质量的音频视觉二人互动人类生成数据集
Youliang Zhang, Zhaoyang Li, Duomin Wang, Jiahe Zhang, Deyu Zhou, Zixin Yin, Xili Dai, Gang Yu, Xiu Li

摘要
大规模模型的迅速发展推动了数字人类领域的重大突破。这些先进的方法为虚拟形象的驱动和渲染提供了高保真解决方案,促使学术界将注意力转向下一个主要挑战:音视频二元交互虚拟人类。为了促进这一新兴领域的研究,我们推出了SpeakerVid-5M数据集,这是首个专为生成音视频二元交互虚拟人类设计的大规模、高质量数据集。该数据集总计超过8,743小时,包含超过520万个真人肖像视频片段,涵盖了多种尺度和交互类型,包括单人讲话、倾听和双人对话。重要的是,该数据集沿两个关键维度进行组织:交互类型和数据质量。首先,根据交互场景将其分为四种类型(对话分支、单分支、倾听分支和多轮分支)。其次,将其划分为一个大规模预训练子集和一个经过精心挑选的高质量子集,用于监督微调(SFT)。这种双重结构能够支持广泛的二维虚拟人类任务。此外,我们还提供了一个基于自回归(AR)模型的视频聊天基线系统,该系统在该数据集上进行了训练,并附带了一套专门的评估指标和测试数据,作为未来工作的基准——VidChatBench。数据集及其相应的数据处理代码将公开发布。项目页面:https://dorniwang.github.io/SpeakerVid-5M/