DiffWave: Ein vielseitiges Diffusionsmodell für die Audiosynthese

In dieser Arbeit stellen wir DiffWave vor, ein vielseitiges Diffusions-Probabilistik-Modell für bedingte und unbedingte Wellenformgenerierung. Das Modell ist nicht-autoregressiv und wandelt ein weißes Rauschsignal durch eine Markov-Kette mit konstanter Anzahl von Schritten während der Synthese in eine strukturierte Wellenform um. Es wird effizient trainiert, indem eine Variante der variationalen Schranke der Daten-Wahrscheinlichkeit optimiert wird. DiffWave erzeugt hochwertige Audiodaten in verschiedenen Aufgaben der Wellenformgenerierung, einschließlich neuronalen Vocoders, die auf Mel-Spektrogrammen basieren, klassenbedingter Generierung sowie unbedingter Generierung. Wir zeigen, dass DiffWave einen starken WaveNet-Vocoder hinsichtlich der Sprachqualität (MOS: 4,44 gegenüber 4,43) erreicht, dabei jedoch um Größenordnungen schneller synthetisiert. Insbesondere übertrifft es autoregressive und GAN-basierte Wellenformmodelle in der anspruchsvollen unbedingten Generierungsaufgabe hinsichtlich Audioqualität und Stichprobenvielfalt erheblich, wie verschiedene automatisierte und menschliche Bewertungen belegen.