11日前

FastDiff：高品質な音声合成を実現する高速な条件付き拡散モデル

Rongjie Huang, Max W. Y. Lam, Jun Wang, Dan Su, Dong Yu, Yi Ren, Zhou Zhao

要約

ノイズ除去拡散確率モデル（Denoising Diffusion Probabilistic Models, DDPMs）は、近年、多くの生成タスクにおいて最先端の性能を達成している。しかし、その反復的サンプリングプロセスに伴う計算コストが、音声合成への応用を阻んでいた。本論文では、高品質な音声合成を実現する高速な条件付き拡散モデルであるFastDiffを提案する。FastDiffは、多様な受容 field 構造を持つ時刻に依存する位置可変畳み込み層をスタックすることで、適応的な条件のもとで長期的な時系列依存関係を効率的にモデル化する。さらに、生成品質を損なわずにサンプリングステップ数を削減するため、ノイズスケジュール予測器を導入している。FastDiffを基盤として、中間特徴量（例：メルスペクトログラム）を一切不要とするエンドツーエンド型テキスト到音声合成器であるFastDiff-TTSを設計した。FastDiffの評価において、最高水準の結果が得られ、高品質な音声サンプル（MOS: 4.28）を生成した。また、V100 GPU上でリアルタイム比58倍の高速サンプリングを実現し、拡散モデルが音声合成の実用的導入に初めて可能となった。さらに、未見の話者のメルスペクトログラム復元においても、FastDiffが良好な汎化性能を示し、エンドツーエンド型テキスト到音声合成において他の競合手法を上回った。音声サンプルは以下のURLで公開されている：\url{https://FastDiff.github.io/}。