2ヶ月前

WaveNet: 生のオーディオのための生成モデル

Aaron van den Oord; Sander Dieleman; Heiga Zen; Karen Simonyan; Oriol Vinyals; Alex Graves; Nal Kalchbrenner; Andrew Senior; Koray Kavukcuoglu
WaveNet: 生のオーディオのための生成モデル
要約

本論文では、WaveNetという深層ニューラルネットワークを紹介します。このモデルは、各オーディオサンプルの予測分布がすべての前のサンプルに条件付けられる完全な確率的自己回帰モデルです。しかし、我々はこのモデルが秒あたり数万サンプルのオーディーデータに対して効率的に学習できることを示しています。テキストから音声への変換(Text-to-Speech)にWaveNetを適用すると、英語と中国語の両方で最も優れたパラメトリックシステムや連結システムよりも著しく自然な音声を生成し、最先端の性能を達成することが確認されています。単一のWaveNetは多くの異なる話者の特性を同等の精度で捉えることができ、話者識別に基づいてそれら間での切り替えも可能です。音楽モデリングのために訓練された場合、WaveNetは新しいかつしばしば非常に現実的な音楽断片を生成することがわかりました。また、判別モデルとして使用することも可能であり、音素認識において有望な結果を示しています。

WaveNet: 生のオーディオのための生成モデル | 最新論文 | HyperAI超神経