2 个月前
WaveNet:一种用于原始音频的生成模型
Aaron van den Oord; Sander Dieleman; Heiga Zen; Karen Simonyan; Oriol Vinyals; Alex Graves; Nal Kalchbrenner; Andrew Senior; Koray Kavukcuoglu

摘要
本文介绍了WaveNet,一种用于生成原始音频波形的深度神经网络。该模型完全基于概率且自回归,每个音频样本的预测分布都依赖于所有先前的样本;然而,我们展示了它可以在每秒包含数万个样本的数据上高效训练。当应用于文本到语音转换时,WaveNet表现出当前最佳的性能,人类听众对其自然度的评价显著高于最好的参数化和拼接式系统(无论是英语还是普通话)。单个WaveNet可以以同等保真度捕捉许多不同说话者的声音特征,并通过条件输入说话者身份在它们之间切换。当训练用于音乐建模时,我们发现它能够生成新颖且往往非常逼真的音乐片段。此外,我们还展示了它可以作为判别模型使用,在音素识别方面取得了有希望的结果。