11 天前

Glow-TTS:通过单调对齐搜索实现的文本到语音生成流

Jaehyeon Kim, Sungwon Kim, Jungil Kong, Sungroh Yoon
Glow-TTS:通过单调对齐搜索实现的文本到语音生成流
摘要

近年来,文本到语音(Text-to-Speech, TTS)模型如FastSpeech和ParaNet被提出,旨在并行地从文本生成梅尔频谱图(mel-spectrograms)。尽管这类并行TTS模型具有显著优势,但在训练过程中仍需依赖自回归TTS模型提供的外部对齐器(external aligner)进行指导。在本工作中,我们提出Glow-TTS,一种基于流模型(flow-based generative model)的并行TTS框架,无需任何外部对齐器。通过结合流模型的特性与动态规划(dynamic programming)的优势,该模型能够自主搜索文本与语音潜在表示之间的最可能单调对齐(monotonic alignment)。我们证明,强制实施硬性单调对齐可显著提升TTS系统的鲁棒性,使其能够有效处理长语音样本;同时,采用生成流模型可实现快速、多样且可控的语音合成。在语音合成阶段,Glow-TTS相比自回归模型Tacotron 2实现了数量级的加速,同时保持了相当的语音质量。此外,我们还展示了该模型可轻松扩展至多说话人(multi-speaker)场景。

Glow-TTS:通过单调对齐搜索实现的文本到语音生成流 | 最新论文 | HyperAI超神经