HyperAIHyperAI

Command Palette

Search for a command to run...

FastDiff:高品質な音声合成を実現する高速な条件付き拡散モデル

Rongjie Huang Max W. Y. Lam Jun Wang Dan Su Dong Yu Yi Ren Zhou Zhao

概要

ノイズ除去拡散確率モデル(Denoising Diffusion Probabilistic Models, DDPMs)は、近年、多くの生成タスクにおいて最先端の性能を達成している。しかし、その反復的サンプリングプロセスに伴う計算コストが、音声合成への応用を阻んでいた。本論文では、高品質な音声合成を実現する高速な条件付き拡散モデルであるFastDiffを提案する。FastDiffは、多様な受容 field 構造を持つ時刻に依存する位置可変畳み込み層をスタックすることで、適応的な条件のもとで長期的な時系列依存関係を効率的にモデル化する。さらに、生成品質を損なわずにサンプリングステップ数を削減するため、ノイズスケジュール予測器を導入している。FastDiffを基盤として、中間特徴量(例:メルスペクトログラム)を一切不要とするエンドツーエンド型テキスト到音声合成器であるFastDiff-TTSを設計した。FastDiffの評価において、最高水準の結果が得られ、高品質な音声サンプル(MOS: 4.28)を生成した。また、V100 GPU上でリアルタイム比58倍の高速サンプリングを実現し、拡散モデルが音声合成の実用的導入に初めて可能となった。さらに、未見の話者のメルスペクトログラム復元においても、FastDiffが良好な汎化性能を示し、エンドツーエンド型テキスト到音声合成において他の競合手法を上回った。音声サンプルは以下のURLで公開されている:\url{https://FastDiff.github.io/}


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
FastDiff:高品質な音声合成を実現する高速な条件付き拡散モデル | 記事 | HyperAI超神経