2 个月前
Tacotron:迈向端到端语音合成
Yuxuan Wang; RJ Skerry-Ryan; Daisy Stanton; Yonghui Wu; Ron J. Weiss; Navdeep Jaitly; Zongheng Yang; Ying Xiao; Zhifeng Chen; Samy Bengio; Quoc Le; Yannis Agiomyrgiannakis; Rob Clark; Rif A. Saurous

摘要
一个文本转语音合成系统通常由多个阶段组成,例如文本分析前端、声学模型和音频合成模块。构建这些组件往往需要广泛的专业知识,并且可能包含脆弱的设计选择。在本文中,我们介绍了Tacotron,一种端到端生成的文本转语音模型,该模型可以直接从字符合成语音。给定<文本,音频>对,该模型可以从零开始完全随机初始化进行训练。我们提出了一些关键的技术,以使序列到序列框架在这种具有挑战性的任务中表现良好。Tacotron在美国英语上的主观5分制平均意见得分为3.82,在自然度方面优于生产参数系统。此外,由于Tacotron在帧级别生成语音,因此其速度显著快于样本级别的自回归方法。