13日前
DiffWave:音声合成に向けた汎用的な拡散モデル
Zhifeng Kong, Wei Ping, Jiaji Huang, Kexin Zhao, Bryan Catanzaro

要約
本研究では、条件付きおよび無条件の波形生成に応用可能な汎用的な拡散確率モデル「DiffWave」を提案する。このモデルは自己回帰型ではないものであり、合成時に一定ステップ数のマルコフ連鎖を用いて白色雑音信号を構造化された波形に変換する。データ尤度に関する変分境界の変種を最適化することで、効率的な学習が可能である。DiffWaveは、メルスペクトログラムを条件とするニューラルボコーダー、クラス条件付き生成、および無条件生成といった複数の波形生成タスクにおいて、高忠実度の音声を生成する。実験により、DiffWaveは音声品質(MOSスコア:4.44 対 4.43)において強力なWaveNetボコーダーと同等の性能を達成しつつ、合成速度は桁違いに高速であることを示した。特に、自動評価および人間評価の両面から、無条件生成という困難なタスクにおいて、自己回帰型およびGANベースの波形生成モデルを大きく上回る音声品質とサンプルの多様性を実現した。