vor 12 Tagen

Diffsound: Diskreter Diffusionsmodell für die Text-zu-Klang-Generierung

Dongchao Yang, Jianwei Yu, Helin Wang, Wen Wang, Chao Weng, Yuexian Zou, Dong Yu

Abstract

Die Erzeugung von Klangeffekten, die von Menschen gewünscht werden, ist ein wichtiges Forschungsthema. Dennoch gibt es bisher nur wenige Studien auf diesem Gebiet im Bereich der Klanggenerierung. In dieser Arbeit untersuchen wir die Erzeugung von Klangen auf der Basis eines Textprompts und stellen einen neuartigen Text-zu-Klang-Generierungs-Framework vor, der aus einem Text-Encoder, einem Vector Quantized Variational Autoencoder (VQ-VAE), einem Decoder und einem Vocoder besteht. Zunächst verwendet der Decoder gemeinsam mit dem VQ-VAE die aus dem Text-Encoder extrahierten Textmerkmale, um ein Mel-Spektrogramm zu erzeugen, welches anschließend durch den Vocoder in ein Audiosignal (Waveform) umgewandelt wird. Wir konnten feststellen, dass der Decoder entscheidenden Einfluss auf die Generierungsgüte hat. Daher legen wir im Rahmen dieser Arbeit besonderen Fokus auf die Gestaltung eines effektiven Decoders. Ausgangspunkt ist der klassische autoregressive (AR) Decoder, der in vorherigen Arbeiten zur Klanggenerierung als state-of-the-art-Methode bewiesen wurde. Allerdings prognostiziert der AR-Decoder die Mel-Spektrogramm-Tokens sequenziell und in fester Reihenfolge, was zu einer einseitigen Bias- und Fehlerakkumulationsproblematik führt. Zudem steigt die Generierungszeit mit dem Klangdauer linear an. Um diese Nachteile des AR-Decoders zu überwinden, schlagen wir einen nicht-autoregressiven Decoder vor, der auf einem diskreten Diffusionsmodell basiert und als Diffsound bezeichnet wird. Insbesondere prognostiziert Diffsound alle Mel-Spektrogramm-Tokens in einem einzigen Schritt und verfeinert diese Vorhersagen anschließend in nachfolgenden Schritten, sodass nach mehreren Iterationen die bestmöglichen Ergebnisse erzielt werden können. Unsere Experimente zeigen, dass unser vorgeschlagener Diffsound im Vergleich zum AR-Decoder nicht nur signifikant bessere Ergebnisse bei der Text-zu-Klang-Generierung liefert, sondern auch eine um ein Vielfaches höhere Generierungsgeschwindigkeit aufweist: Beispielsweise erreicht Diffsound eine MOS (Mean Opinion Score) von 3,56 gegenüber 2,786 beim AR-Decoder, und die Generierungsgeschwindigkeit ist fünfmal höher als bei der autoregressiven Methode.