Exploration de la meilleure fonction de perte pour l’amélioration du speech à faible latence basée sur les réseaux de neurones profonds avec des réseaux de convolution temporelle

Récemment, les réseaux de neurones profonds (DNN) ont été couramment utilisés pour l’amélioration de la parole, et les méthodes d’amélioration de la parole basées sur les DNN sont devenues un domaine de recherche particulièrement attractif. Bien que les méthodes fondées sur le masquage temps-fréquence basé sur la transformation de Fourier à court terme (STFT) aient été largement adoptées pour les approches DNN en amélioration de la parole au cours des dernières années, des méthodes en domaine temporel, telles que le réseau de séparation audio en domaine temporel (TasNet), ont également été proposées. Le choix de la méthode la plus adaptée dépend de l’échelle du jeu de données ainsi que du type de tâche considérée. Dans ce travail, nous explorons les algorithmes d’amélioration de la parole les plus performants sur deux jeux de données distincts. Nous proposons une méthode basée sur STFT ainsi qu’une fonction de perte utilisant des caractéristiques issues d’un encodeur de parole indépendant du problème (PASE), afin d’améliorer la qualité subjective sur le jeu de données plus petit. Nos méthodes proposées s’avèrent efficaces sur le jeu de données Voice Bank + DEMAND et se comparent avantageusement aux autres méthodes de pointe. Nous avons également mis en œuvre une version à faible latence de TasNet, que nous avons soumise au DNS Challenge et rendue publique via une diffusion open source. Notre modèle obtient des performances remarquables sur le jeu de données du DNS Challenge.