vor 15 Tagen

BDDM: Bilateral Denoising Diffusion Models für schnelle und hochwertige Sprachsynthese

Max W. Y. Lam, Jun Wang, Dan Su, Dong Yu

Abstract

Diffusionsbasierte probabilistische Modelle (DPMs) und ihre Erweiterungen sind als leistungsfähige generative Modelle hervorgetreten, stehen jedoch vor der Herausforderung effizienter Sampling-Verfahren. Wir stellen ein neues bilaterales Entrauschungs-Diffusionsmodell (BDDM) vor, das sowohl den Vorwärts- als auch den Rückwärtsprozess mittels eines Schedule-Netzwerks und eines Score-Netzwerks parametrisiert, wobei die Trainingsphase auf einem neuartigen bilateralen Modellierungsziel basiert. Wir zeigen, dass das neue Surrogat-Ziel eine engere untere Schranke der Log-Marginal-Wahrscheinlichkeit liefert als herkömmliche Surrogat-Ziele. Zudem beobachten wir, dass BDDM die Übernahme vortrainierter Score-Netzwerk-Parameter aus beliebigen DPMs ermöglicht und somit eine schnelle und stabile Lernung des Schedule-Netzwerks sowie die Optimierung einer Rausch-Schedule für das Sampling unterstützt. Unsere Experimente belegen, dass BDDMs hochfidele Audiosamples bereits mit nur drei Sampling-Schritten generieren können. Im Vergleich zu anderen state-of-the-art Diffusions-basierten Neural-Vocoders erzeugen BDDMs vergleichbare oder höhere Qualität, die von menschlicher Sprache nicht zu unterscheiden ist, insbesondere bereits bei lediglich sieben Sampling-Schritten (143-mal schneller als WaveGrad und 28,6-mal schneller als DiffWave). Wir stellen unseren Code unter https://github.com/tencent-ailab/bddm zur Verfügung.