2ヶ月前

タコトロン:エンドツーエンドの音声合成への道

Yuxuan Wang; RJ Skerry-Ryan; Daisy Stanton; Yonghui Wu; Ron J. Weiss; Navdeep Jaitly; Zongheng Yang; Ying Xiao; Zhifeng Chen; Samy Bengio; Quoc Le; Yannis Agiomyrgiannakis; Rob Clark; Rif A. Saurous
タコトロン:エンドツーエンドの音声合成への道
要約

テキストから音声への合成システムは通常、テキスト解析フロントエンド、音響モデル、およびオーディオ合成モジュールなどの複数の段階で構成されています。これらのコンポーネントを構築するには、広範な専門知識が必要であり、脆い設計選択肢を含む可能性があります。本論文では、文字列から直接音声を合成するエンドツーエンドの生成型テキストから音声への合成モデルであるTacotronを紹介します。<テキスト, 音声>ペアが与えられれば、ランダム初期化により完全にゼロからモデルを学習させることができます。この困難なタスクにおいてシーケンスツーシーケンスフレームワークが良好に動作するようにするために、いくつかの重要な技術について説明します。Tacotronは米国英語において主観的な5段階評価スケールで3.82の平均意見得点(MOS)を達成しており、自然さという点で製品向けパラメトリックシステムを上回っています。さらに、Tacotronはフレームレベルで音声を生成するため、サンプルレベルの自己回帰方法よりも大幅に高速です。