il y a 8 mois

Résumé

Dans cette étude, nous nous appuyons sur notre publication précédente et utilisons des modèles génératifs basés sur la diffusion pour l'amélioration de la parole. Nous présentons un aperçu détaillé du processus de diffusion, qui repose sur une équation différentielle stochastique, et nous abordons une analyse théorique approfondie de ses implications. Contrairement aux tâches habituelles de génération conditionnelle, nous ne commençons pas le processus inverse à partir d'un bruit gaussien pur, mais à partir d'un mélange de parole bruitée et de bruit gaussien. Ceci correspond à notre processus direct, qui passe de la parole propre à la parole bruitée en incluant un terme de dérive. Nous montrons que cette procédure permet d'obtenir des estimations de parole propre de haute qualité en utilisant seulement 30 étapes de diffusion. En adaptant l'architecture du réseau, nous sommes capables d'améliorer considérablement les performances d'amélioration de la parole, ce qui suggère que le réseau, plutôt que le formalisme, était la principale limitation de notre approche initiale. Dans une évaluation croisée extensive sur différents jeux de données, nous démontrons que la méthode améliorée peut rivaliser avec les modèles discriminants récents et atteint une meilleure généralisation lorsqu'elle est évaluée sur un corpus différent de celui utilisé pour l'entraînement. Nous complétons ces résultats par une évaluation instrumentale utilisant des enregistrements bruités réels et par une expérience d'écoute, au cours de laquelle notre méthode proposée est jugée supérieure. L'examen de différentes configurations d'échantillonneurs pour résoudre le processus inverse nous permet d'équilibrer les performances et la vitesse computationnelle de la méthode proposée. De plus, nous montrons que la méthode proposée est également adaptée à la déréverbération et n'est donc pas limitée à l'élimination du bruit ambiant additif. Le code source et des exemples audio sont disponibles en ligne ; voir https://github.com/sp-uhh/sgmse.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Modèle De Diffusion

Traitement Audio Et Vocal

Julius Richter Simon Welker Jean-Marie Lemercier Bunlong Lay Timo Gerkmann

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Modèle De Diffusion

Traitement Audio Et Vocal

Julius Richter Simon Welker Jean-Marie Lemercier Bunlong Lay Timo Gerkmann

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Amélioration de la parole et déréverbération avec des modèles génératifs basés sur la diffusion

Julius Richter Simon Welker Jean-Marie Lemercier Bunlong Lay Timo Gerkmann

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Amélioration de la parole et déréverbération avec des modèles génératifs basés sur la diffusion

Julius Richter Simon Welker Jean-Marie Lemercier Bunlong Lay Timo Gerkmann

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Amélioration de la parole et déréverbération avec des modèles génératifs basés sur la diffusion

Julius Richter Simon Welker Jean-Marie Lemercier Bunlong Lay Timo Gerkmann

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters