HyperAIHyperAI

Command Palette

Search for a command to run...

BDDM:高速かつ高品質な音声合成のための両側ノイズ除去拡散モデル

Max W. Y. Lam Jun Wang Dan Su Dong Yu

概要

拡散確率モデル(DPMs)およびその拡張手法は、優れた生成モデルとして浮上している一方で、効率的なサンプリングという課題に直面している。本研究では、前向きプロセスと逆向きプロセスの両方をスケジュールネットワークとスコアネットワークでパラメータ化する新しい二重ノイズ除去拡散モデル(BDDM)を提案する。このモデルは、新たな二重モデリング目的関数に基づいて学習可能であり、従来の代替目的関数よりも tighter な対数周辺尤度の下界を達成できることを示す。また、BDDMは任意のDPMから事前学習されたスコアネットワークのパラメータを継承可能であり、これによりスケジュールネットワークの高速かつ安定した学習と、サンプリングに最適なノイズスケジュールの最適化が可能となる。実験結果から、BDDMはたった3ステップのサンプリングで高忠実度の音声サンプルを生成できることを確認した。さらに、他の最先端の拡散ベース音声合成モデルと比較して、わずか7ステップのサンプリング(WaveGrad比143倍速、DiffWave比28.6倍速)で人間の発話と区別できない、同等またはより高い品質の音声を生成することが明らかになった。本研究のコードは、https://github.com/tencent-ailab/bddm にて公開している。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
BDDM:高速かつ高品質な音声合成のための両側ノイズ除去拡散モデル | 記事 | HyperAI超神経