HyperAIHyperAI

Command Palette

Search for a command to run...

WaveFlow: Ein kompakter flussbasierter Modell für Roh-Audio

Wei Ping Kainan Peng Kexin Zhao Zhao Song

Zusammenfassung

In dieser Arbeit stellen wir WaveFlow vor, einen generativen Fluss mit geringem Speicherbedarf für Rohaudio, der direkt mittels Maximum-Likelihood-Schätzung trainiert wird. WaveFlow verarbeitet die langreichweitigen Strukturen von eindimensionalen Wellenformen mittels einer dilatierten zweidimensionalen Faltungsarchitektur, während lokale Variationen durch expressive autoregressive Funktionen modelliert werden. WaveFlow bietet eine einheitliche Sichtweise auf likelihood-basierte Modelle für eindimensionale Daten und umfasst sowohl WaveNet als auch WaveGlow als Sonderfälle. Es erzeugt Sprache von hoher Qualität, vergleichbar mit WaveNet, synthetisiert jedoch mehrere Größenordnungen schneller, da lediglich wenige sequenzielle Schritte erforderlich sind, um sehr lange Wellenformen mit Hunderttausenden von Zeitschritten zu generieren. Zudem kann WaveFlow die bisher bestehende Lücke in der Wahrscheinlichkeit (Likelihood) zwischen autoregressiven Modellen und flussbasierten Modellen für eine effiziente Synthese erheblich verringern. Schließlich verfügt unser modellkleiner WaveFlow nur über 5,91 Mio. Parameter – das entspricht einem Fünfzehnfachen der Größe von WaveGlow. Auf einer V100-GPU kann er hochauflösendes Audio mit 22,05 kHz mit einer Geschwindigkeit von 939,3 kHz erzeugen, was einer 42,6-fachen Echtzeitgeschwindigkeit entspricht, ohne speziell optimierte Inferenzkerne zu benötigen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp