Amélioration de parole de haute fidélité basée sur un RNN par bande

Malgré les progrès rapides réalisés dans le domaine de l’amélioration de la parole (SE), l’amélioration de la qualité de la parole cible dans des environnements caractérisés par un bruit intense et la présence de locuteurs interférants reste un défi. Dans cet article, nous étendons l’application du modèle récemment proposé, le RNN à division de bande (BSRNN), aux tâches d’amélioration de la parole sur bande complète (full-band SE) et d’amélioration de la parole personnalisée (PSE). Afin de atténuer les effets des composantes haute fréquence instables présentes dans la parole sur bande complète, nous appliquons une modélisation bidirectionnelle aux sous-bandes basses fréquences et une modélisation unidirectionnelle aux sous-bandes hautes fréquences. Pour la tâche de PSE, nous intégrons un module d’enrôlement vocal au BSRNN afin d’exploiter les informations relatives au locuteur cible. En outre, nous utilisons un discriminateur MetricGAN (MGD) ainsi qu’un discriminateur à spectrogramme à multiple résolution (MRSD) afin d’améliorer les métriques de qualité perceptuelle. Les résultats expérimentaux montrent que notre système surpasser divers systèmes d’SE de haut niveau, atteint des performances de l’état de l’art (SOTA) sur le jeu de test DNS-2020 et se classe parmi les trois premiers dans le défi DNS-2023.