HyperAIHyperAI

Command Palette

Search for a command to run...

BDDM: Bilateral Denoising Diffusion Models für schnelle und hochwertige Sprachsynthese

Max W. Y. Lam Jun Wang Dan Su Dong Yu

Zusammenfassung

Diffusionsbasierte probabilistische Modelle (DPMs) und ihre Erweiterungen sind als leistungsfähige generative Modelle hervorgetreten, stehen jedoch vor der Herausforderung effizienter Sampling-Verfahren. Wir stellen ein neues bilaterales Entrauschungs-Diffusionsmodell (BDDM) vor, das sowohl den Vorwärts- als auch den Rückwärtsprozess mittels eines Schedule-Netzwerks und eines Score-Netzwerks parametrisiert, wobei die Trainingsphase auf einem neuartigen bilateralen Modellierungsziel basiert. Wir zeigen, dass das neue Surrogat-Ziel eine engere untere Schranke der Log-Marginal-Wahrscheinlichkeit liefert als herkömmliche Surrogat-Ziele. Zudem beobachten wir, dass BDDM die Übernahme vortrainierter Score-Netzwerk-Parameter aus beliebigen DPMs ermöglicht und somit eine schnelle und stabile Lernung des Schedule-Netzwerks sowie die Optimierung einer Rausch-Schedule für das Sampling unterstützt. Unsere Experimente belegen, dass BDDMs hochfidele Audiosamples bereits mit nur drei Sampling-Schritten generieren können. Im Vergleich zu anderen state-of-the-art Diffusions-basierten Neural-Vocoders erzeugen BDDMs vergleichbare oder höhere Qualität, die von menschlicher Sprache nicht zu unterscheiden ist, insbesondere bereits bei lediglich sieben Sampling-Schritten (143-mal schneller als WaveGrad und 28,6-mal schneller als DiffWave). Wir stellen unseren Code unter https://github.com/tencent-ailab/bddm zur Verfügung.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp