6 个月前

Jaehyeon Kim Sungwon Kim Jungil Kong Sungroh Yoon

摘要

近年来，文本到语音（Text-to-Speech, TTS）模型如FastSpeech和ParaNet被提出，旨在并行地从文本生成梅尔频谱图（mel-spectrograms）。尽管这类并行TTS模型具有显著优势，但在训练过程中仍需依赖自回归TTS模型提供的外部对齐器（external aligner）进行指导。在本工作中，我们提出Glow-TTS，一种基于流模型（flow-based generative model）的并行TTS框架，无需任何外部对齐器。通过结合流模型的特性与动态规划（dynamic programming）的优势，该模型能够自主搜索文本与语音潜在表示之间的最可能单调对齐（monotonic alignment）。我们证明，强制实施硬性单调对齐可显著提升TTS系统的鲁棒性，使其能够有效处理长语音样本；同时，采用生成流模型可实现快速、多样且可控的语音合成。在语音合成阶段，Glow-TTS相比自回归模型Tacotron 2实现了数量级的加速，同时保持了相当的语音质量。此外，我们还展示了该模型可轻松扩展至多说话人（multi-speaker）场景。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

Jaehyeon Kim Sungwon Kim Jungil Kong Sungroh Yoon

摘要

近年来，文本到语音（Text-to-Speech, TTS）模型如FastSpeech和ParaNet被提出，旨在并行地从文本生成梅尔频谱图（mel-spectrograms）。尽管这类并行TTS模型具有显著优势，但在训练过程中仍需依赖自回归TTS模型提供的外部对齐器（external aligner）进行指导。在本工作中，我们提出Glow-TTS，一种基于流模型（flow-based generative model）的并行TTS框架，无需任何外部对齐器。通过结合流模型的特性与动态规划（dynamic programming）的优势，该模型能够自主搜索文本与语音潜在表示之间的最可能单调对齐（monotonic alignment）。我们证明，强制实施硬性单调对齐可显著提升TTS系统的鲁棒性，使其能够有效处理长语音样本；同时，采用生成流模型可实现快速、多样且可控的语音合成。在语音合成阶段，Glow-TTS相比自回归模型Tacotron 2实现了数量级的加速，同时保持了相当的语音质量。此外，我们还展示了该模型可轻松扩展至多说话人（multi-speaker）场景。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供