11 天前

Flowtron:一种基于自回归流的文本到语音合成生成网络

Rafael Valle, Kevin Shih, Ryan Prenger, Bryan Catanzaro
Flowtron:一种基于自回归流的文本到语音合成生成网络
摘要

本文提出Flowtron:一种基于自回归流(autoregressive flow)的文本到语音合成生成网络,具备对语音变化和风格迁移的精细控制能力。Flowtron借鉴了IAF(Inference-Conditioned Autoregressive Flow)的思想,并对Tacotron架构进行了重构,以实现高质量且富有表现力的梅尔频谱图(mel-spectrogram)合成。通过最大化训练数据的似然函数进行优化,Flowtron的训练过程简单且稳定。该模型学习了一种可逆的数据映射机制,将输入映射至潜在空间,该潜在空间可被灵活操控,从而实现对语音合成多个方面的精细调控,包括音高、语调、语速、语流节奏以及口音等。主观平均意见分(MOS)测试结果表明,Flowtron在语音质量方面达到了当前先进文本到语音模型的水平。此外,本文还展示了在语音变化控制、样本间插值以及训练中见过与未见过说话人之间的风格迁移等方面的实验结果。相关代码与预训练模型将公开发布于 https://github.com/NVIDIA/flowtron。

Flowtron:一种基于自回归流的文本到语音合成生成网络 | 最新论文 | HyperAI超神经