WaveFlow: Ein kompakter flussbasierter Modell für Roh-Audio

In dieser Arbeit stellen wir WaveFlow vor, einen generativen Fluss mit geringem Speicherbedarf für Rohaudio, der direkt mittels Maximum-Likelihood-Schätzung trainiert wird. WaveFlow verarbeitet die langreichweitigen Strukturen von eindimensionalen Wellenformen mittels einer dilatierten zweidimensionalen Faltungsarchitektur, während lokale Variationen durch expressive autoregressive Funktionen modelliert werden. WaveFlow bietet eine einheitliche Sichtweise auf likelihood-basierte Modelle für eindimensionale Daten und umfasst sowohl WaveNet als auch WaveGlow als Sonderfälle. Es erzeugt Sprache von hoher Qualität, vergleichbar mit WaveNet, synthetisiert jedoch mehrere Größenordnungen schneller, da lediglich wenige sequenzielle Schritte erforderlich sind, um sehr lange Wellenformen mit Hunderttausenden von Zeitschritten zu generieren. Zudem kann WaveFlow die bisher bestehende Lücke in der Wahrscheinlichkeit (Likelihood) zwischen autoregressiven Modellen und flussbasierten Modellen für eine effiziente Synthese erheblich verringern. Schließlich verfügt unser modellkleiner WaveFlow nur über 5,91 Mio. Parameter – das entspricht einem Fünfzehnfachen der Größe von WaveGlow. Auf einer V100-GPU kann er hochauflösendes Audio mit 22,05 kHz mit einer Geschwindigkeit von 939,3 kHz erzeugen, was einer 42,6-fachen Echtzeitgeschwindigkeit entspricht, ohne speziell optimierte Inferenzkerne zu benötigen.