2 个月前
基于Transformer网络的神经语音合成
Naihan Li; Shujie Liu; Yanqing Liu; Sheng Zhao; Ming Liu; Ming Zhou

摘要
尽管端到端神经文本转语音(TTS)方法(如Tacotron2)已被提出并实现了最先进的性能,但它们仍然存在两个问题:1)训练和推理过程中的效率较低;2)使用当前的循环神经网络(RNNs)难以建模长距离依赖关系。受Transformer网络在神经机器翻译(NMT)中成功应用的启发,本文引入并适应了多头注意力机制,以替代Tacotron2中的RNN结构及其原有的注意力机制。借助多头自注意力机制,编码器和解码器中的隐藏状态可以并行构建,从而提高了训练效率。同时,不同时间点的任意两个输入通过自注意力机制直接连接,有效解决了长距离依赖问题。使用音素序列作为输入,我们的Transformer TTS网络生成梅尔频谱图,随后由WaveNet声码器输出最终的音频结果。实验测试了我们新网络的效率和性能。在效率方面,与Tacotron2相比,我们的Transformer TTS网络可将训练速度提高约4.25倍。在性能方面,严格的主观测试表明,我们提出的模型达到了最先进的性能(比Tacotron2高出0.048分),并且非常接近人类发音的质量(MOS评分分别为4.39和4.44)。