13 天前

神经隐马尔可夫模型(Neural HMMs)是实现高质量无注意力机制TTS的全部所需

Shivam Mehta, Éva Székely, Jonas Beskow, Gustav Eje Henter
神经隐马尔可夫模型(Neural HMMs)是实现高质量无注意力机制TTS的全部所需
摘要

基于神经网络的序列到序列文本转语音(TTS)技术在输出质量上已显著优于传统基于隐马尔可夫模型(HMM)的统计语音合成方法。然而,神经TTS通常不具备概率建模能力,且采用非单调注意力机制,这会导致注意力机制失效,从而增加训练时间,并可能使语音合成结果出现语义不连贯的问题。本文提出一种融合传统与现代范式的方法,通过用由神经网络定义的自回归左右结构、无跳过(no-skip)隐马尔可夫模型(HMM)替代神经TTS中的注意力机制,从而兼顾两者的优势。基于这一思想,我们对Tacotron 2模型进行了改进,构建了一种基于HMM的神经TTS模型,该模型具备单调对齐特性,并在训练过程中直接最大化完整语音序列的联合似然,无需近似处理。此外,本文还系统阐述了如何融合经典与现代TTS技术的核心思想,以实现最优合成效果。实验结果表明,所提出的系统相较于Tacotron 2更加轻量且结构更简单,在更少的训练迭代次数和更少的数据量下即可学会自然发音,且在后处理网络(post-net)之前即可达到相当的自然度水平。同时,该方法还支持对语音语速的便捷控制。

神经隐马尔可夫模型(Neural HMMs)是实现高质量无注意力机制TTS的全部所需 | 最新论文 | HyperAI超神经