Amélioration de l'enhancement vocal avec le Wave-U-Net

Nous étudions l'utilisation de l'architecture Wave-U-Net pour l'amélioration de la parole, un modèle introduit par Stoller et al. pour la séparation des voix vocales et de l'accompagnement musical. Cette méthode d'apprentissage de bout en bout pour la séparation des sources audio fonctionne directement dans le domaine temporel, permettant une modélisation intégrée des informations de phase et étant capable de prendre en compte des contextes temporels importants. Nos expériences montrent que la méthode proposée améliore plusieurs métriques, notamment PESQ, CSIG, CBAK, COVL et SSNR, par rapport à l'état de l'art en ce qui concerne la tâche d'amélioration de la parole sur le jeu de données Voice Bank corpus (VCTK). Nous constatons qu'un nombre réduit de couches cachées est suffisant pour l'amélioration de la parole par rapport au système original conçu pour la séparation des voix chantées dans la musique. Nous considérons ce premier résultat comme un signal encourageant pour explorer davantage l'amélioration de la parole dans le domaine temporel, tant en soi que comme étape préalable aux systèmes de reconnaissance vocale.