HyperAIHyperAI

Command Palette

Search for a command to run...

Analyse de la variance de l'amélioration vocale basée sur la diffusion

Bunlong Lay Timo Gerkmann

Résumé

Les modèles de diffusion se sont révélés être des modèles puissants pour l’amélioration générative de la parole. Dans les approches récentes SGMSE+, l’entraînement repose sur une équation différentielle stochastique régissant le processus de diffusion, au cours duquel du bruit gaussien ainsi que du bruit environnemental sont progressivement ajoutés au signal de parole propre. La performance de l’amélioration de la parole dépend sensiblement du choix de l’équation différentielle stochastique qui contrôle l’évolution de la moyenne et de la variance au cours du processus de diffusion. Dans ce travail, nous mettons en évidence que l’échelle de la variance constitue un paramètre dominant pour la performance en amélioration de la parole, et montrons qu’elle régule le compromis entre l’atténuation du bruit et les distorsions de parole. Plus précisément, nous démontrons qu’une variance plus élevée améliore l’atténuation du bruit et permet de réduire la charge computationnelle, car elle nécessite un nombre moindre d’évaluations fonctionnelles pour générer l’estimation.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp