HyperAIHyperAI

Command Palette

Search for a command to run...

Amélioration de la parole et déréverbération avec des modèles génératifs basés sur la diffusion

Julius Richter Simon Welker Jean-Marie Lemercier Bunlong Lay Timo Gerkmann

Résumé

Dans cette étude, nous nous appuyons sur notre publication précédente et utilisons des modèles génératifs basés sur la diffusion pour l'amélioration de la parole. Nous présentons un aperçu détaillé du processus de diffusion, qui repose sur une équation différentielle stochastique, et nous abordons une analyse théorique approfondie de ses implications. Contrairement aux tâches habituelles de génération conditionnelle, nous ne commençons pas le processus inverse à partir d'un bruit gaussien pur, mais à partir d'un mélange de parole bruitée et de bruit gaussien. Ceci correspond à notre processus direct, qui passe de la parole propre à la parole bruitée en incluant un terme de dérive. Nous montrons que cette procédure permet d'obtenir des estimations de parole propre de haute qualité en utilisant seulement 30 étapes de diffusion. En adaptant l'architecture du réseau, nous sommes capables d'améliorer considérablement les performances d'amélioration de la parole, ce qui suggère que le réseau, plutôt que le formalisme, était la principale limitation de notre approche initiale. Dans une évaluation croisée extensive sur différents jeux de données, nous démontrons que la méthode améliorée peut rivaliser avec les modèles discriminants récents et atteint une meilleure généralisation lorsqu'elle est évaluée sur un corpus différent de celui utilisé pour l'entraînement. Nous complétons ces résultats par une évaluation instrumentale utilisant des enregistrements bruités réels et par une expérience d'écoute, au cours de laquelle notre méthode proposée est jugée supérieure. L'examen de différentes configurations d'échantillonneurs pour résoudre le processus inverse nous permet d'équilibrer les performances et la vitesse computationnelle de la méthode proposée. De plus, nous montrons que la méthode proposée est également adaptée à la déréverbération et n'est donc pas limitée à l'élimination du bruit ambiant additif. Le code source et des exemples audio sont disponibles en ligne ; voir https://github.com/sp-uhh/sgmse.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp