BDDM: Bilateral Denoising Diffusion Models für schnelle und hochwertige Sprachsynthese

Diffusionsbasierte probabilistische Modelle (DPMs) und ihre Erweiterungen sind als leistungsfähige generative Modelle hervorgetreten, stehen jedoch vor der Herausforderung effizienter Sampling-Verfahren. Wir stellen ein neues bilaterales Entrauschungs-Diffusionsmodell (BDDM) vor, das sowohl den Vorwärts- als auch den Rückwärtsprozess mittels eines Schedule-Netzwerks und eines Score-Netzwerks parametrisiert, wobei die Trainingsphase auf einem neuartigen bilateralen Modellierungsziel basiert. Wir zeigen, dass das neue Surrogat-Ziel eine engere untere Schranke der Log-Marginal-Wahrscheinlichkeit liefert als herkömmliche Surrogat-Ziele. Zudem beobachten wir, dass BDDM die Übernahme vortrainierter Score-Netzwerk-Parameter aus beliebigen DPMs ermöglicht und somit eine schnelle und stabile Lernung des Schedule-Netzwerks sowie die Optimierung einer Rausch-Schedule für das Sampling unterstützt. Unsere Experimente belegen, dass BDDMs hochfidele Audiosamples bereits mit nur drei Sampling-Schritten generieren können. Im Vergleich zu anderen state-of-the-art Diffusions-basierten Neural-Vocoders erzeugen BDDMs vergleichbare oder höhere Qualität, die von menschlicher Sprache nicht zu unterscheiden ist, insbesondere bereits bei lediglich sieben Sampling-Schritten (143-mal schneller als WaveGrad und 28,6-mal schneller als DiffWave). Wir stellen unseren Code unter https://github.com/tencent-ailab/bddm zur Verfügung.