HyperAIHyperAI

Command Palette

Search for a command to run...

Diffsound: Diskreter Diffusionsmodell für die Text-zu-Klang-Generierung

Dongchao Yang Jianwei Yu Helin Wang Wen Wang Chao Weng Yuexian Zou Dong Yu

Zusammenfassung

Die Erzeugung von Klangeffekten, die von Menschen gewünscht werden, ist ein wichtiges Forschungsthema. Dennoch gibt es bisher nur wenige Studien auf diesem Gebiet im Bereich der Klanggenerierung. In dieser Arbeit untersuchen wir die Erzeugung von Klangen auf der Basis eines Textprompts und stellen einen neuartigen Text-zu-Klang-Generierungs-Framework vor, der aus einem Text-Encoder, einem Vector Quantized Variational Autoencoder (VQ-VAE), einem Decoder und einem Vocoder besteht. Zunächst verwendet der Decoder gemeinsam mit dem VQ-VAE die aus dem Text-Encoder extrahierten Textmerkmale, um ein Mel-Spektrogramm zu erzeugen, welches anschließend durch den Vocoder in ein Audiosignal (Waveform) umgewandelt wird. Wir konnten feststellen, dass der Decoder entscheidenden Einfluss auf die Generierungsgüte hat. Daher legen wir im Rahmen dieser Arbeit besonderen Fokus auf die Gestaltung eines effektiven Decoders. Ausgangspunkt ist der klassische autoregressive (AR) Decoder, der in vorherigen Arbeiten zur Klanggenerierung als state-of-the-art-Methode bewiesen wurde. Allerdings prognostiziert der AR-Decoder die Mel-Spektrogramm-Tokens sequenziell und in fester Reihenfolge, was zu einer einseitigen Bias- und Fehlerakku­mulationsproblematik führt. Zudem steigt die Generierungszeit mit dem Klangdauer linear an. Um diese Nachteile des AR-Decoders zu überwinden, schlagen wir einen nicht-autoregressiven Decoder vor, der auf einem diskreten Diffusionsmodell basiert und als Diffsound bezeichnet wird. Insbesondere prognostiziert Diffsound alle Mel-Spektrogramm-Tokens in einem einzigen Schritt und verfeinert diese Vorhersagen anschließend in nachfolgenden Schritten, sodass nach mehreren Iterationen die bestmöglichen Ergebnisse erzielt werden können. Unsere Experimente zeigen, dass unser vorgeschlagener Diffsound im Vergleich zum AR-Decoder nicht nur signifikant bessere Ergebnisse bei der Text-zu-Klang-Generierung liefert, sondern auch eine um ein Vielfaches höhere Generierungsgeschwindigkeit aufweist: Beispielsweise erreicht Diffsound eine MOS (Mean Opinion Score) von 3,56 gegenüber 2,786 beim AR-Decoder, und die Generierungsgeschwindigkeit ist fünfmal höher als bei der autoregressiven Methode.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp