RFWave : Flot rectifié multi-bandes pour la reconstruction de signaux audio

Les progrès récents dans le domaine du modélisme génératif ont considérablement amélioré la reconstruction de signaux audio à partir de diverses représentations. Bien que les modèles de diffusion soient particulièrement efficaces pour cette tâche, ils souffrent de latences importantes dues à leur traitement au niveau des échantillons individuels et au grand nombre d’étapes d’échantillonnage nécessaires. Dans cette étude, nous introduisons RFWave, une approche innovante basée sur le Flow rectifié et multi-bande, conçue pour reconstruire des signaux audio haute fidélité à partir de Mel-spectrogrammes ou de jetons acoustiques discrets. RFWave génère de manière unique des spectrogrammes complexes en opérant au niveau des trames, en traitant simultanément toutes les sous-bandes, ce qui améliore considérablement l’efficacité. Grâce au Flow rectifié, qui vise une trajectoire de transport rectiligne, RFWave parvient à une reconstruction avec seulement 10 étapes d’échantillonnage. Nos évaluations empiriques montrent que RFWave offre non seulement une qualité de reconstruction exceptionnelle, mais également une efficacité computationnelle nettement supérieure, permettant une génération audio jusqu’à 160 fois plus rapide que le temps réel sur GPU. Une démonstration en ligne est disponible à l’adresse suivante : https://rfwave-demo.github.io/rfwave/.