Command Palette

Search for a command to run...

2 天前

DiaMoE-TTS:一种基于IPA的统一方言TTS框架,支持多专家模型与参数高效零样本适配

Ziqi Chen Gongyu Chen Yihua Wang Chaofan Ding Zihao Chen Wei-Qiang Zhang

DiaMoE-TTS:一种基于IPA的统一方言TTS框架,支持多专家模型与参数高效零样本适配

摘要

方言语音体现了丰富的文化与语言多样性,但受限于数据稀缺、拼写系统不统一以及复杂的语音变异,构建方言文本到语音(TTS)系统仍面临巨大挑战。为应对这些难题,我们提出 DiaMoE-TTS,一种基于国际音标(IPA)的统一框架,通过标准化语音表征并解决字符到音素映射中的歧义问题。该系统基于 F5-TTS 架构,引入了具有方言感知能力的专家混合(Mixture-of-Experts, MoE)机制,以建模不同方言间的音系差异,并采用低秩适配器(LoRA)与条件适配器(Conditioning Adapters)实现参数高效适配,从而实现对新方言的快速迁移。与依赖大规模或专有资源的方法不同,DiaMoE-TTS 支持可扩展的、基于开放数据的语音合成。实验结果表明,该系统能够生成自然且富有表现力的语音,在仅需数小时数据的情况下,即可实现对未见方言及特定领域(如京剧)的零样本语音合成。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供