2ヶ月前

Transformerネットワークを用いたニューラル音声合成

Naihan Li; Shujie Liu; Yanqing Liu; Sheng Zhao; Ming Liu; Ming Zhou
Transformerネットワークを用いたニューラル音声合成
要約

端から端までのニューラルテキストツースピーチ(TTS)手法(Tacotron2など)が提案され、最先端の性能を達成していますが、依然として2つの問題に直面しています。1)学習と推論時の効率の低さ;2)現在の再帰型ニューラルネットワーク(RNNs)を使用して長距離依存関係をモデル化することが難しい。本稿では、ニューラル機械翻訳(NMT)におけるTransformerネットワークの成功に触発され、多頭注意機構を導入し、Tacotron2のRNN構造および元の注意機構を置き換える方法について述べます。多頭自己注意機構のおかげで、エンコーダーとデコーダー内の隠れ状態は並列に構築されるため、学習効率が向上します。さらに、異なる時間での任意の2つの入力は自己注意機構によって直接接続されるため、長距離依存関係問題が効果的に解決されます。音素列を入力として使用し、私たちのTransformer TTSネットワークはメルスペクトログラムを生成し、その後WaveNetボーカライザーにより最終的な音声結果が出力されます。実験では、新しいネットワークの効率と性能を検証しました。効率に関しては、提案したTransformer TTSネットワークはTacotron2と比較して約4.25倍速い学習速度を達成しました。性能に関しては、厳密な人間による評価テストにおいて提案モデルが最先端の性能(Tacotron2との差異0.048で優れている)を達成し、人間の品質に非常に近い結果(MOS 4.39対4.44)を得ました。

Transformerネットワークを用いたニューラル音声合成 | 最新論文 | HyperAI超神経