Command Palette
Search for a command to run...

摘要
基于音频驱动的说话人头像合成技术已实现惊人的逼真度,但当前最先进(SOTA)的模型存在一个关键缺陷:其泛化能力无法覆盖人类在种族、语言和年龄群体等方面的全部多样性。我们认为,这一泛化差距正是现有训练数据局限性的直接体现——这些数据在规模、质量与多样性方面均显不足。为应对这一挑战,我们提出了TalkVid,一个大规模、高质量且高度多样化的新型数据集,包含来自7729位不同说话人的总计1244小时视频。TalkVid通过一套系统化、多阶段的自动化筛选流程构建,严格过滤了运动稳定性、视觉美感和面部细节等关键指标,并经过人工评估验证,确保数据集的可靠性。此外,我们构建并发布了TalkVid-Bench,这是一个分层评估数据集,包含500个精心平衡的视频片段,覆盖关键的人口统计学与语言维度。实验结果表明,基于TalkVid训练的模型在跨数据集泛化能力方面显著优于以往数据集训练的模型。尤为重要的是,我们在TalkVid-Bench上的分析揭示了不同子群体间存在的性能差异,而这些差异在传统聚合指标下往往被掩盖,凸显了该评估集对未来研究的必要性。代码与数据可访问:https://github.com/FreedomIntelligence/TalkVid