6ヶ月前

アプローチ／フレームワーク

オーディオ

Rafael Valle Kevin Shih Ryan Prenger Bryan Catanzaro

概要

本論文では、音声のバリエーションおよびスタイル転送を制御可能な、自己回帰的フローに基づく音声合成用生成ネットワーク「Flowtron」を提案する。FlowtronはIAF（Inversed Autoregressive Flow）の知見を活用しつつ、Tacotronを刷新することで、高品質で表現力豊かなメルスペクトログラムの合成を実現している。Flowtronは訓練データの尤度を最大化するように最適化されており、これにより学習が単純かつ安定する。また、データを潜在空間に一対一で写像する可逆な変換を学習しており、この潜在空間を操作することで、音声合成のさまざまな側面（発音の高さ、トーン、話速、リズム、発音アクセントなど）を制御可能となる。平均意見スコア（MOS）の評価結果から、Flowtronは最新のTTSモデルと同等の音声品質を達成していることが示された。さらに、音声のバリエーション制御、サンプル間の補間、訓練時に観測された・されなかった話者間のスタイル転送に関する実験結果も提示する。コードおよび事前学習済みモデルは、https://github.com/NVIDIA/flowtron にて公開される予定である。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

アプローチ／フレームワーク

オーディオ

Rafael Valle Kevin Shih Ryan Prenger Bryan Catanzaro

概要

本論文では、音声のバリエーションおよびスタイル転送を制御可能な、自己回帰的フローに基づく音声合成用生成ネットワーク「Flowtron」を提案する。FlowtronはIAF（Inversed Autoregressive Flow）の知見を活用しつつ、Tacotronを刷新することで、高品質で表現力豊かなメルスペクトログラムの合成を実現している。Flowtronは訓練データの尤度を最大化するように最適化されており、これにより学習が単純かつ安定する。また、データを潜在空間に一対一で写像する可逆な変換を学習しており、この潜在空間を操作することで、音声合成のさまざまな側面（発音の高さ、トーン、話速、リズム、発音アクセントなど）を制御可能となる。平均意見スコア（MOS）の評価結果から、Flowtronは最新のTTSモデルと同等の音声品質を達成していることが示された。さらに、音声のバリエーション制御、サンプル間の補間、訓練時に観測された・されなかった話者間のスタイル転送に関する実験結果も提示する。コードおよび事前学習済みモデルは、https://github.com/NVIDIA/flowtron にて公開される予定である。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています