HyperAIHyperAI

Command Palette

Search for a command to run...

WaveNet: 生のオーディオのための生成モデル

Aäron van den Oord Sander Dieleman Heiga Zen† Karen Simonyan Oriol Vinyals Alex Graves Nal Kalchbrenner Andrew Senior Koray Kavukcuoglu

概要

本論文では、WaveNetという深層ニューラルネットワークを紹介します。このモデルは、各オーディオサンプルの予測分布がすべての前のサンプルに条件付けられる完全な確率的自己回帰モデルです。しかし、我々はこのモデルが秒あたり数万サンプルのオーディーデータに対して効率的に学習できることを示しています。テキストから音声への変換(Text-to-Speech)にWaveNetを適用すると、英語と中国語の両方で最も優れたパラメトリックシステムや連結システムよりも著しく自然な音声を生成し、最先端の性能を達成することが確認されています。単一のWaveNetは多くの異なる話者の特性を同等の精度で捉えることができ、話者識別に基づいてそれら間での切り替えも可能です。音楽モデリングのために訓練された場合、WaveNetは新しいかつしばしば非常に現実的な音楽断片を生成することがわかりました。また、判別モデルとして使用することも可能であり、音素認識において有望な結果を示しています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
WaveNet: 生のオーディオのための生成モデル | 記事 | HyperAI超神経