Command Palette
Search for a command to run...
Ziqi Chen Gongyu Chen Yihua Wang Chaofan Ding Zihao Chen Wei-Qiang Zhang

摘要
方言语音体现了丰富的文化与语言多样性,但受限于数据稀缺、拼写系统不统一以及复杂的语音变异,构建方言文本到语音(TTS)系统仍面临巨大挑战。为应对这些难题,我们提出 DiaMoE-TTS,一种基于国际音标(IPA)的统一框架,通过标准化语音表征并解决字符到音素映射中的歧义问题。该系统基于 F5-TTS 架构,引入了具有方言感知能力的专家混合(Mixture-of-Experts, MoE)机制,以建模不同方言间的音系差异,并采用低秩适配器(LoRA)与条件适配器(Conditioning Adapters)实现参数高效适配,从而实现对新方言的快速迁移。与依赖大规模或专有资源的方法不同,DiaMoE-TTS 支持可扩展的、基于开放数据的语音合成。实验结果表明,该系统能够生成自然且富有表现力的语音,在仅需数小时数据的情况下,即可实现对未见方言及特定领域(如京剧)的零样本语音合成。