HyperAIHyperAI

Command Palette

Search for a command to run...

FunCineForge:面向多样化电影场景的零样本电影配音统一数据集工具包与模型

Jiaxuan Liu Yang Xiang Han Zhao Xiangang Li Zhenhua Ling

摘要

电影配音是一项基于视频场景,从剧本合成语音的任务,要求实现精准的口型同步、忠实的音色迁移,以及对角色身份与情感的恰当建模。然而,现有方法面临两大主要局限:(1)高质量的多模态配音数据集规模有限,词错误率较高,标注稀疏,依赖昂贵的人工标注,且仅限于独白场景,这些因素均阻碍了模型的有效训练;(2)现有配音模型仅依赖唇部区域来学习音视频对齐,限制了其在复杂真人电影场景中的适用性,且在口型同步、语音质量和情感表现力方面表现欠佳。为解决上述问题,我们提出了 FunCineForge,该框架包含一个面向大规模配音数据集的端到端制作 pipeline,以及一个基于 MLLM、专为多样化电影场景设计的配音模型。利用该 pipeline,我们构建了首个具有丰富标注的中文电视剧配音数据集,并验证了这些数据的高质量。在独白、旁白、对话及多说话人场景下的实验表明,我们的配音模型在语音质量、口型同步、音色迁移及指令遵循等方面均持续优于 SOTA 方法。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供