3 个月前

统一多模态

Ziqi Chen Gongyu Chen Yihua Wang Chaofan Ding Zihao Chen Wei-Qiang Zhang

摘要

方言语音体现了丰富的文化与语言多样性，但受限于数据稀缺、拼写系统不统一以及复杂的语音变异，构建方言文本到语音（TTS）系统仍面临巨大挑战。为应对这些难题，我们提出 DiaMoE-TTS，一种基于国际音标（IPA）的统一框架，通过标准化语音表征并解决字符到音素映射中的歧义问题。该系统基于 F5-TTS 架构，引入了具有方言感知能力的专家混合（Mixture-of-Experts, MoE）机制，以建模不同方言间的音系差异，并采用低秩适配器（LoRA）与条件适配器（Conditioning Adapters）实现参数高效适配，从而实现对新方言的快速迁移。与依赖大规模或专有资源的方法不同，DiaMoE-TTS 支持可扩展的、基于开放数据的语音合成。实验结果表明，该系统能够生成自然且富有表现力的语音，在仅需数小时数据的情况下，即可实现对未见方言及特定领域（如京剧）的零样本语音合成。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

3 个月前

统一多模态

Ziqi Chen Gongyu Chen Yihua Wang Chaofan Ding Zihao Chen Wei-Qiang Zhang

摘要

方言语音体现了丰富的文化与语言多样性，但受限于数据稀缺、拼写系统不统一以及复杂的语音变异，构建方言文本到语音（TTS）系统仍面临巨大挑战。为应对这些难题，我们提出 DiaMoE-TTS，一种基于国际音标（IPA）的统一框架，通过标准化语音表征并解决字符到音素映射中的歧义问题。该系统基于 F5-TTS 架构，引入了具有方言感知能力的专家混合（Mixture-of-Experts, MoE）机制，以建模不同方言间的音系差异，并采用低秩适配器（LoRA）与条件适配器（Conditioning Adapters）实现参数高效适配，从而实现对新方言的快速迁移。与依赖大规模或专有资源的方法不同，DiaMoE-TTS 支持可扩展的、基于开放数据的语音合成。实验结果表明，该系统能够生成自然且富有表现力的语音，在仅需数小时数据的情况下，即可实现对未见方言及特定领域（如京剧）的零样本语音合成。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供