HyperAIHyperAI

Command Palette

Search for a command to run...

DiffWave: Ein vielseitiges Diffusionsmodell für die Audiosynthese

Zhifeng Kong Wei Ping Jiaji Huang Kexin Zhao Bryan Catanzaro

Zusammenfassung

In dieser Arbeit stellen wir DiffWave vor, ein vielseitiges Diffusions-Probabilistik-Modell für bedingte und unbedingte Wellenformgenerierung. Das Modell ist nicht-autoregressiv und wandelt ein weißes Rauschsignal durch eine Markov-Kette mit konstanter Anzahl von Schritten während der Synthese in eine strukturierte Wellenform um. Es wird effizient trainiert, indem eine Variante der variationalen Schranke der Daten-Wahrscheinlichkeit optimiert wird. DiffWave erzeugt hochwertige Audiodaten in verschiedenen Aufgaben der Wellenformgenerierung, einschließlich neuronalen Vocoders, die auf Mel-Spektrogrammen basieren, klassenbedingter Generierung sowie unbedingter Generierung. Wir zeigen, dass DiffWave einen starken WaveNet-Vocoder hinsichtlich der Sprachqualität (MOS: 4,44 gegenüber 4,43) erreicht, dabei jedoch um Größenordnungen schneller synthetisiert. Insbesondere übertrifft es autoregressive und GAN-basierte Wellenformmodelle in der anspruchsvollen unbedingten Generierungsaufgabe hinsichtlich Audioqualität und Stichprobenvielfalt erheblich, wie verschiedene automatisierte und menschliche Bewertungen belegen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
DiffWave: Ein vielseitiges Diffusionsmodell für die Audiosynthese | Paper | HyperAI