8ヶ月前

拡散モデル

アプローチ／フレームワーク

オーディオ

Shivam Mehta; Ruibo Tu; Jonas Beskow; Éva Székely; Gustav Eje Henter

概要

私たちは新しいエンコーダー-デコーダー構造の高速テキスト読み上げ（TTS）音響モデルであるMatcha-TTSを紹介します。このモデルは最適輸送条件付きフローマッチング（OT-CFM: Optimal-Transport Conditional Flow Matching）を使用して訓練されます。これにより、スコアマッチングで訓練されたモデルよりも少ない合成ステップで高品質な出力を生成できるODE（常微分方程式）ベースのデコーダーが得られます。また、慎重な設計選択により各合成ステップが高速に実行されることが保証されています。本手法は確率的であり、非自己回帰的であり、外部のアライメントなしでゼロから話すことを学習します。強力な事前学習済み基準モデルと比較して、Matcha-TTSシステムは最小のメモリ使用量を持ち、長い発話において最も速いモデルと同等の速度を達成し、聴取テストでは最高の平均意見スコアを得ています。オーディオサンプル、コード、および事前学習済みモデルについては、https://shivammehta25.github.io/Matcha-TTS/ をご覧ください。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

拡散モデル

アプローチ／フレームワーク

オーディオ

Shivam Mehta; Ruibo Tu; Jonas Beskow; Éva Székely; Gustav Eje Henter

概要

私たちは新しいエンコーダー-デコーダー構造の高速テキスト読み上げ（TTS）音響モデルであるMatcha-TTSを紹介します。このモデルは最適輸送条件付きフローマッチング（OT-CFM: Optimal-Transport Conditional Flow Matching）を使用して訓練されます。これにより、スコアマッチングで訓練されたモデルよりも少ない合成ステップで高品質な出力を生成できるODE（常微分方程式）ベースのデコーダーが得られます。また、慎重な設計選択により各合成ステップが高速に実行されることが保証されています。本手法は確率的であり、非自己回帰的であり、外部のアライメントなしでゼロから話すことを学習します。強力な事前学習済み基準モデルと比較して、Matcha-TTSシステムは最小のメモリ使用量を持ち、長い発話において最も速いモデルと同等の速度を達成し、聴取テストでは最高の平均意見スコアを得ています。オーディオサンプル、コード、および事前学習済みモデルについては、https://shivammehta25.github.io/Matcha-TTS/ をご覧ください。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています