2ヶ月前

マッチャ-TTS: 条件付きフローマッチングを用いた高速TTSアーキテクチャ

Shivam Mehta; Ruibo Tu; Jonas Beskow; Éva Székely; Gustav Eje Henter
マッチャ-TTS: 条件付きフローマッチングを用いた高速TTSアーキテクチャ
要約

私たちは新しいエンコーダー-デコーダー構造の高速テキスト読み上げ(TTS)音響モデルであるMatcha-TTSを紹介します。このモデルは最適輸送条件付きフローマッチング(OT-CFM: Optimal-Transport Conditional Flow Matching)を使用して訓練されます。これにより、スコアマッチングで訓練されたモデルよりも少ない合成ステップで高品質な出力を生成できるODE(常微分方程式)ベースのデコーダーが得られます。また、慎重な設計選択により各合成ステップが高速に実行されることが保証されています。本手法は確率的であり、非自己回帰的であり、外部のアライメントなしでゼロから話すことを学習します。強力な事前学習済み基準モデルと比較して、Matcha-TTSシステムは最小のメモリ使用量を持ち、長い発話において最も速いモデルと同等の速度を達成し、聴取テストでは最高の平均意見スコアを得ています。オーディオサンプル、コード、および事前学習済みモデルについては、https://shivammehta25.github.io/Matcha-TTS/ をご覧ください。

マッチャ-TTS: 条件付きフローマッチングを用いた高速TTSアーキテクチャ | 最新論文 | HyperAI超神経