HyperAIHyperAI

Command Palette

Search for a command to run...

タコトロン:エンドツーエンドの音声合成への道

Yuxuan Wang; RJ Skerry-Ryan; Daisy Stanton; Yonghui Wu; Ron J. Weiss; Navdeep Jaitly; Zongheng Yang; Ying Xiao; Zhifeng Chen; Samy Bengio; Quoc Le; Yannis Agiomyrgiannakis; Rob Clark; Rif A. Saurous

概要

テキストから音声への合成システムは通常、テキスト解析フロントエンド、音響モデル、およびオーディオ合成モジュールなどの複数の段階で構成されています。これらのコンポーネントを構築するには、広範な専門知識が必要であり、脆い設計選択肢を含む可能性があります。本論文では、文字列から直接音声を合成するエンドツーエンドの生成型テキストから音声への合成モデルであるTacotronを紹介します。<テキスト, 音声>ペアが与えられれば、ランダム初期化により完全にゼロからモデルを学習させることができます。この困難なタスクにおいてシーケンスツーシーケンスフレームワークが良好に動作するようにするために、いくつかの重要な技術について説明します。Tacotronは米国英語において主観的な5段階評価スケールで3.82の平均意見得点(MOS)を達成しており、自然さという点で製品向けパラメトリックシステムを上回っています。さらに、Tacotronはフレームレベルで音声を生成するため、サンプルレベルの自己回帰方法よりも大幅に高速です。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています