3 天前

摘要

电影配音是一项基于视频场景，从剧本合成语音的任务，要求实现精准的口型同步、忠实的音色迁移，以及对角色身份与情感的恰当建模。然而，现有方法面临两大主要局限：（1）高质量的多模态配音数据集规模有限，词错误率较高，标注稀疏，依赖昂贵的人工标注，且仅限于独白场景，这些因素均阻碍了模型的有效训练；（2）现有配音模型仅依赖唇部区域来学习音视频对齐，限制了其在复杂真人电影场景中的适用性，且在口型同步、语音质量和情感表现力方面表现欠佳。为解决上述问题，我们提出了 FunCineForge，该框架包含一个面向大规模配音数据集的端到端制作 pipeline，以及一个基于 MLLM、专为多样化电影场景设计的配音模型。利用该 pipeline，我们构建了首个具有丰富标注的中文电视剧配音数据集，并验证了这些数据的高质量。在独白、旁白、对话及多说话人场景下的实验表明，我们的配音模型在语音质量、口型同步、音色迁移及指令遵循等方面均持续优于 SOTA 方法。

源 PDF 查看代码