
要約
拡散確率モデル(DPMs)およびその拡張手法は、優れた生成モデルとして浮上している一方で、効率的なサンプリングという課題に直面している。本研究では、前向きプロセスと逆向きプロセスの両方をスケジュールネットワークとスコアネットワークでパラメータ化する新しい二重ノイズ除去拡散モデル(BDDM)を提案する。このモデルは、新たな二重モデリング目的関数に基づいて学習可能であり、従来の代替目的関数よりも tighter な対数周辺尤度の下界を達成できることを示す。また、BDDMは任意のDPMから事前学習されたスコアネットワークのパラメータを継承可能であり、これによりスケジュールネットワークの高速かつ安定した学習と、サンプリングに最適なノイズスケジュールの最適化が可能となる。実験結果から、BDDMはたった3ステップのサンプリングで高忠実度の音声サンプルを生成できることを確認した。さらに、他の最先端の拡散ベース音声合成モデルと比較して、わずか7ステップのサンプリング(WaveGrad比143倍速、DiffWave比28.6倍速)で人間の発話と区別できない、同等またはより高い品質の音声を生成することが明らかになった。本研究のコードは、https://github.com/tencent-ailab/bddm にて公開している。