2ヶ月前
SampleRNN: 無条件のエンドツーエンド神経音声生成モデル
Soroush Mehri; Kundan Kumar; Ishaan Gulrajani; Rithesh Kumar; Shubham Jain; Jose Sotelo; Aaron Courville; Yoshua Bengio

要約
本論文では、無条件音声生成のための新しいモデルを提案します。このモデルは、一回に一つの音声サンプルを生成することに基づいています。我々は、階層構造でメモリーレスモジュール(すなわち自己回帰多層パーセプトロン)と状態保持型再帰ニューラルネットワークを組み合わせることで、異なる性質を持つ3つのデータセットにおいて非常に長い時間範囲での時系列データの変動源を捉えることができることを示します。生成されたサンプルの人間評価では、当モデルが競合するモデルよりも優れていることが示されています。また、各コンポーネントがどのようにしてモデルの性能向上に寄与しているかも説明しています。