HyperAIHyperAI
il y a 17 jours

Analyse de la variance de l'amélioration vocale basée sur la diffusion

Bunlong Lay, Timo Gerkmann
Analyse de la variance de l'amélioration vocale basée sur la diffusion
Résumé

Les modèles de diffusion se sont révélés être des modèles puissants pour l’amélioration générative de la parole. Dans les approches récentes SGMSE+, l’entraînement repose sur une équation différentielle stochastique régissant le processus de diffusion, au cours duquel du bruit gaussien ainsi que du bruit environnemental sont progressivement ajoutés au signal de parole propre. La performance de l’amélioration de la parole dépend sensiblement du choix de l’équation différentielle stochastique qui contrôle l’évolution de la moyenne et de la variance au cours du processus de diffusion. Dans ce travail, nous mettons en évidence que l’échelle de la variance constitue un paramètre dominant pour la performance en amélioration de la parole, et montrons qu’elle régule le compromis entre l’atténuation du bruit et les distorsions de parole. Plus précisément, nous démontrons qu’une variance plus élevée améliore l’atténuation du bruit et permet de réduire la charge computationnelle, car elle nécessite un nombre moindre d’évaluations fonctionnelles pour générer l’estimation.