HyperAIHyperAI

Command Palette

Search for a command to run...

Amélioration de l'enhancement vocal avec le Wave-U-Net

Craig Macartney; Tillman Weyde

Résumé

Nous étudions l'utilisation de l'architecture Wave-U-Net pour l'amélioration de la parole, un modèle introduit par Stoller et al. pour la séparation des voix vocales et de l'accompagnement musical. Cette méthode d'apprentissage de bout en bout pour la séparation des sources audio fonctionne directement dans le domaine temporel, permettant une modélisation intégrée des informations de phase et étant capable de prendre en compte des contextes temporels importants. Nos expériences montrent que la méthode proposée améliore plusieurs métriques, notamment PESQ, CSIG, CBAK, COVL et SSNR, par rapport à l'état de l'art en ce qui concerne la tâche d'amélioration de la parole sur le jeu de données Voice Bank corpus (VCTK). Nous constatons qu'un nombre réduit de couches cachées est suffisant pour l'amélioration de la parole par rapport au système original conçu pour la séparation des voix chantées dans la musique. Nous considérons ce premier résultat comme un signal encourageant pour explorer davantage l'amélioration de la parole dans le domaine temporel, tant en soi que comme étape préalable aux systèmes de reconnaissance vocale.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Amélioration de l'enhancement vocal avec le Wave-U-Net | Articles | HyperAI