6 个月前

Vadim Popov Ivan Vovk Vladimir Gogoryan Tasnima Sadekova Mikhail Kudinov

摘要

近期，去噪扩散概率模型（denoising diffusion probabilistic models）与生成得分匹配（generative score matching）在建模复杂数据分布方面展现出巨大潜力。同时，随机微积分为这些技术提供了统一的理论视角，使得灵活的推理方案成为可能。本文提出一种新型文本到语音（text-to-speech, TTS）模型——Grad-TTS，其采用基于得分的解码器，通过逐步将编码器预测的噪声进行转化，并借助单调对齐搜索（Monotonic Alignment Search）与文本输入对齐，生成梅尔频谱图（mel-spectrograms）。基于随机微分方程的框架使我们能够将传统的扩散概率模型推广至从具有不同参数的噪声中重构数据的情形，并通过显式控制语音质量与推理速度之间的权衡，实现灵活的重建过程。主观人类评估结果表明，Grad-TTS在平均意见得分（Mean Opinion Score, MOS）方面与当前最先进的文本到语音方法具有竞争力。相关代码即将开源发布。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

Vadim Popov Ivan Vovk Vladimir Gogoryan Tasnima Sadekova Mikhail Kudinov

摘要

近期，去噪扩散概率模型（denoising diffusion probabilistic models）与生成得分匹配（generative score matching）在建模复杂数据分布方面展现出巨大潜力。同时，随机微积分为这些技术提供了统一的理论视角，使得灵活的推理方案成为可能。本文提出一种新型文本到语音（text-to-speech, TTS）模型——Grad-TTS，其采用基于得分的解码器，通过逐步将编码器预测的噪声进行转化，并借助单调对齐搜索（Monotonic Alignment Search）与文本输入对齐，生成梅尔频谱图（mel-spectrograms）。基于随机微分方程的框架使我们能够将传统的扩散概率模型推广至从具有不同参数的噪声中重构数据的情形，并通过显式控制语音质量与推理速度之间的权衡，实现灵活的重建过程。主观人类评估结果表明，Grad-TTS在平均意见得分（Mean Opinion Score, MOS）方面与当前最先进的文本到语音方法具有竞争力。相关代码即将开源发布。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供