Command Palette
Search for a command to run...
FastSpeech: 高速、堅牢かつ制御可能なテキストから音声への変換
FastSpeech: 高速、堅牢かつ制御可能なテキストから音声への変換
Yi Ren Yangjun Ruan Xu Tan Tao Qin Sheng Zhao Zhou Zhao Tie-Yan Liu
概要
ニューラルネットワークを基にしたエンドツーエンドのテキストから音声への変換(TTS)は、合成音声の品質を大幅に向上させました。代表的な手法(例:Tacotron 2)では、通常まずテキストからメルスペクトログラムを生成し、その後WaveNetなどのボコーダを使用してメルスペクトログラムから音声を合成します。伝統的な連結型や統計的パラメトリックアプローチと比較すると、ニューラルネットワークを基にしたエンドツーエンドモデルは推論速度が遅く、合成された音声は一般的に堅牢性(つまり、一部の単語がスキップされたり繰り返されたりする)と制御性(声の速さや抑揚の制御)に欠けています。本研究では、TTS用の並列メルスペクトログラム生成を行うための新しいトランスフォーマーに基づくフィードフォワードネットワークを提案します。具体的には、エンコーダ-デコーダベースの教師モデルから注意アライメントを抽出し、これを長さ調整器が使用してソース音素列をターゲットメルスペクトログラム列の長さに合わせて拡張します。LJSpeechデータセットでの実験結果は、我々の並列モデルが自己回帰モデルと同等の音声品質を持ち、特に難しいケースにおける単語のスキップや繰り返し問題をほぼ解消できることを示しています。さらに、声の速さを滑らかに調整することができます。最も重要な点は、自己回帰トランスフォーマーTTSと比較して、我々のモデルはメルスペクトログラム生成速度を270倍高速化し、エンドツーエンドの音声合成速度も38倍向上させていることです。このため、我々はこのモデルをFastSpeechと呼びます。