6ヶ月前

アプローチ／フレームワーク

オーディオ

Jaehyeon Kim Sungwon Kim Jungil Kong Sungroh Yoon

概要

近年、FastSpeech や ParaNet などのテキストからメルスペクトログラムを並列的に生成するテキスト音声合成（TTS）モデルが提案されている。これらの並列TTSモデルは、自己回帰型TTSモデルによる外部アライナー（aligner）を介さずに学習を行うことができないという課題を抱えている。本研究では、外部アライナーを一切不要とする、フローに基づく生成モデルであるGlow-TTSを提案する。本モデルは、フローの性質と動的計画法（dynamic programming）を組み合わせることで、テキストと音声の潜在表現の間に最も確率の高い単調なアライナー（monotonic alignment）を自ら探索する。我々は、硬い単調アライナーを強制することにより、長文発話にも一般化可能な堅牢なTTSが実現できることを示す。また、生成用フローを用いることで、高速かつ多様性に富み、制御可能な音声合成が可能となる。Glow-TTSは、音声合成においてTacotron 2（自己回帰型モデル）と同等の音声品質を維持しつつ、1桁以上の高速化を達成した。さらに、本モデルがマルチスピーカー設定に容易に拡張可能であることも示した。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

アプローチ／フレームワーク

オーディオ

Jaehyeon Kim Sungwon Kim Jungil Kong Sungroh Yoon

概要

近年、FastSpeech や ParaNet などのテキストからメルスペクトログラムを並列的に生成するテキスト音声合成（TTS）モデルが提案されている。これらの並列TTSモデルは、自己回帰型TTSモデルによる外部アライナー（aligner）を介さずに学習を行うことができないという課題を抱えている。本研究では、外部アライナーを一切不要とする、フローに基づく生成モデルであるGlow-TTSを提案する。本モデルは、フローの性質と動的計画法（dynamic programming）を組み合わせることで、テキストと音声の潜在表現の間に最も確率の高い単調なアライナー（monotonic alignment）を自ら探索する。我々は、硬い単調アライナーを強制することにより、長文発話にも一般化可能な堅牢なTTSが実現できることを示す。また、生成用フローを用いることで、高速かつ多様性に富み、制御可能な音声合成が可能となる。Glow-TTSは、音声合成においてTacotron 2（自己回帰型モデル）と同等の音声品質を維持しつつ、1桁以上の高速化を達成した。さらに、本モデルがマルチスピーカー設定に容易に拡張可能であることも示した。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Glow-TTS：単調なアライメント探索を用いたテキストから音声への生成フロー | 記事 | HyperAI超神経