2 个月前
FastSpeech:快速、鲁棒且可控的文本到语音合成
Yi Ren; Yangjun Ruan; Xu Tan; Tao Qin; Sheng Zhao; Zhou Zhao; Tie-Yan Liu

摘要
基于神经网络的端到端文本转语音(TTS)显著提高了合成语音的质量。著名的方法(例如,Tacotron 2)通常首先从文本生成梅尔频谱图,然后使用诸如WaveNet之类的声码器从梅尔频谱图合成语音。与传统的拼接式和统计参数方法相比,基于神经网络的端到端模型存在推理速度慢的问题,且合成的语音通常不够鲁棒(即某些单词会被跳过或重复),并且缺乏可控性(如语速或韵律控制)。在本研究中,我们提出了一种基于Transformer的新型前馈网络,用于并行生成TTS的梅尔频谱图。具体而言,我们从基于编码器-解码器的教师模型中提取注意力对齐信息,用于预测音素持续时间,该信息由长度调节器使用,以扩展源音素序列以匹配目标梅尔频谱图序列的长度,从而实现并行梅尔频谱图生成。在LJSpeech数据集上的实验表明,我们的并行模型在语音质量方面与自回归模型相当,在特别困难的情况下几乎消除了单词跳过和重复的问题,并且可以平滑地调整语速。最重要的是,与自回归Transformer TTS相比,我们的模型将梅尔频谱图生成的速度提高了270倍,并将端到端语音合成的速度提高了38倍。因此,我们将该模型命名为FastSpeech。