HyperAIHyperAI
il y a 2 mois

Amélioration de la parole et déréverbération avec des modèles génératifs basés sur la diffusion

Julius Richter; Simon Welker; Jean-Marie Lemercier; Bunlong Lay; Timo Gerkmann
Amélioration de la parole et déréverbération avec des modèles génératifs basés sur la diffusion
Résumé

Dans cette étude, nous nous appuyons sur notre publication précédente et utilisons des modèles génératifs basés sur la diffusion pour l'amélioration de la parole. Nous présentons un aperçu détaillé du processus de diffusion, qui repose sur une équation différentielle stochastique, et nous abordons une analyse théorique approfondie de ses implications. Contrairement aux tâches habituelles de génération conditionnelle, nous ne commençons pas le processus inverse à partir d'un bruit gaussien pur, mais à partir d'un mélange de parole bruitée et de bruit gaussien. Ceci correspond à notre processus direct, qui passe de la parole propre à la parole bruitée en incluant un terme de dérive. Nous montrons que cette procédure permet d'obtenir des estimations de parole propre de haute qualité en utilisant seulement 30 étapes de diffusion. En adaptant l'architecture du réseau, nous sommes capables d'améliorer considérablement les performances d'amélioration de la parole, ce qui suggère que le réseau, plutôt que le formalisme, était la principale limitation de notre approche initiale. Dans une évaluation croisée extensive sur différents jeux de données, nous démontrons que la méthode améliorée peut rivaliser avec les modèles discriminants récents et atteint une meilleure généralisation lorsqu'elle est évaluée sur un corpus différent de celui utilisé pour l'entraînement. Nous complétons ces résultats par une évaluation instrumentale utilisant des enregistrements bruités réels et par une expérience d'écoute, au cours de laquelle notre méthode proposée est jugée supérieure. L'examen de différentes configurations d'échantillonneurs pour résoudre le processus inverse nous permet d'équilibrer les performances et la vitesse computationnelle de la méthode proposée. De plus, nous montrons que la méthode proposée est également adaptée à la déréverbération et n'est donc pas limitée à l'élimination du bruit ambiant additif. Le code source et des exemples audio sont disponibles en ligne ; voir https://github.com/sp-uhh/sgmse.