Command Palette
Search for a command to run...
FunCineForge:面向多样化电影场景的零样本电影配音统一数据集工具包与模型
FunCineForge:面向多样化电影场景的零样本电影配音统一数据集工具包与模型
Jiaxuan Liu Yang Xiang Han Zhao Xiangang Li Zhenhua Ling
摘要
电影配音是一项基于视频场景,从剧本合成语音的任务,要求实现精准的口型同步、忠实的音色迁移,以及对角色身份与情感的恰当建模。然而,现有方法面临两大主要局限:(1)高质量的多模态配音数据集规模有限,词错误率较高,标注稀疏,依赖昂贵的人工标注,且仅限于独白场景,这些因素均阻碍了模型的有效训练;(2)现有配音模型仅依赖唇部区域来学习音视频对齐,限制了其在复杂真人电影场景中的适用性,且在口型同步、语音质量和情感表现力方面表现欠佳。为解决上述问题,我们提出了 FunCineForge,该框架包含一个面向大规模配音数据集的端到端制作 pipeline,以及一个基于 MLLM、专为多样化电影场景设计的配音模型。利用该 pipeline,我们构建了首个具有丰富标注的中文电视剧配音数据集,并验证了这些数据的高质量。在独白、旁白、对话及多说话人场景下的实验表明,我们的配音模型在语音质量、口型同步、音色迁移及指令遵循等方面均持续优于 SOTA 方法。