2ヶ月前

メルスペクトログラム予測に基づくWaveNetの条件付けによる自然なTTS合成

Jonathan Shen; Ruoming Pang; Ron J. Weiss; Mike Schuster; Navdeep Jaitly; Zongheng Yang; Zhifeng Chen; Yu Zhang; Yuxuan Wang; RJ Skerry-Ryan; Rif A. Saurous; Yannis Agiomyrgiannakis; Yonghui Wu
メルスペクトログラム予測に基づくWaveNetの条件付けによる自然なTTS合成
要約

本論文では、テキストから直接音声合成を行うニューラルネットワークアーキテクチャであるTacotron 2について説明します。このシステムは、文字埋め込みをメルスケールスペクトログラムにマッピングする再帰的なシーケンス・ツー・シーケンス特徴予測ネットワークと、そのスペクトログラムから時間領域の波形を合成するボコーダとして機能する改良されたWaveNetモデルで構成されています。当社のモデルは、プロによって録音された音声の平均意見得点(MOS)$4.58$と比較して、$4.53$というMOSを達成しています。設計選択肢の妥当性を検証するために、システムの主要なコンポーネントに関する削除研究を行い、WaveNetへの入力として言語特徴量、持続時間、および$F_0$特徴量ではなくメルスペクトログラムを使用することの影響を評価します。さらに、コンパクトな音響中間表現を使用することでWaveNetアーキテクチャが大幅に簡素化されることを示しています。

メルスペクトログラム予測に基づくWaveNetの条件付けによる自然なTTS合成 | 最新論文 | HyperAI超神経