HyperAIHyperAI

Command Palette

Search for a command to run...

RFWave : Flot rectifié multi-bandes pour la reconstruction de signaux audio

Peng Liu Dongyang Dai Zhiyong Wu

Résumé

Les progrès récents dans le domaine du modélisme génératif ont considérablement amélioré la reconstruction de signaux audio à partir de diverses représentations. Bien que les modèles de diffusion soient particulièrement efficaces pour cette tâche, ils souffrent de latences importantes dues à leur traitement au niveau des échantillons individuels et au grand nombre d’étapes d’échantillonnage nécessaires. Dans cette étude, nous introduisons RFWave, une approche innovante basée sur le Flow rectifié et multi-bande, conçue pour reconstruire des signaux audio haute fidélité à partir de Mel-spectrogrammes ou de jetons acoustiques discrets. RFWave génère de manière unique des spectrogrammes complexes en opérant au niveau des trames, en traitant simultanément toutes les sous-bandes, ce qui améliore considérablement l’efficacité. Grâce au Flow rectifié, qui vise une trajectoire de transport rectiligne, RFWave parvient à une reconstruction avec seulement 10 étapes d’échantillonnage. Nos évaluations empiriques montrent que RFWave offre non seulement une qualité de reconstruction exceptionnelle, mais également une efficacité computationnelle nettement supérieure, permettant une génération audio jusqu’à 160 fois plus rapide que le temps réel sur GPU. Une démonstration en ligne est disponible à l’adresse suivante : https://rfwave-demo.github.io/rfwave/.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp