RFWave: Mehrbandige rectifizierte Flow-Methoden zur Rekonstruktion von Audiosignalwellenformen

Neueste Fortschritte in der generativen Modellierung haben die Rekonstruktion von Audio-Signalen aus verschiedenen Darstellungen erheblich verbessert. Während Diffusionsmodelle für diese Aufgabe gut geeignet sind, leiden sie aufgrund ihrer Operation auf der Ebene einzelner Sample-Punkte und der Notwendigkeit einer großen Anzahl von Sampling-Schritten unter Latenzproblemen. In dieser Studie stellen wir RFWave vor – einen fortschrittlichen Mehrband-Ansatz basierend auf Rectified Flow, der hochauflösende Audio-Signale aus Mel-Spektrogrammen oder diskreten akustischen Tokens rekonstruiert. RFWave generiert dabei komplexe Spektrogramme auf Frame-Ebene und verarbeitet alle Subbänder gleichzeitig, was die Effizienz deutlich steigert. Durch die Nutzung von Rectified Flow, das eine geradlinige Transport-Transformation anstrebt, erreicht RFWave eine präzise Rekonstruktion bereits mit nur 10 Sampling-Schritten. Unsere empirischen Evaluationen zeigen, dass RFWave nicht nur herausragende Rekonstruktionsqualität bietet, sondern auch eine erheblich bessere rechnerische Effizienz aufweist und die Audio-Generierung auf einer GPU bis zu 160-mal schneller als Echtzeit ermöglicht. Eine Online-Demo ist verfügbar unter: https://rfwave-demo.github.io/rfwave/.