HyperAIHyperAI

Command Palette

Search for a command to run...

Amélioration de parole de haute fidélité basée sur un RNN par bande

Jianwei Yu Yi Luo Hangting Chen Rongzhi Gu Chao Weng

Résumé

Malgré les progrès rapides réalisés dans le domaine de l’amélioration de la parole (SE), l’amélioration de la qualité de la parole cible dans des environnements caractérisés par un bruit intense et la présence de locuteurs interférants reste un défi. Dans cet article, nous étendons l’application du modèle récemment proposé, le RNN à division de bande (BSRNN), aux tâches d’amélioration de la parole sur bande complète (full-band SE) et d’amélioration de la parole personnalisée (PSE). Afin de atténuer les effets des composantes haute fréquence instables présentes dans la parole sur bande complète, nous appliquons une modélisation bidirectionnelle aux sous-bandes basses fréquences et une modélisation unidirectionnelle aux sous-bandes hautes fréquences. Pour la tâche de PSE, nous intégrons un module d’enrôlement vocal au BSRNN afin d’exploiter les informations relatives au locuteur cible. En outre, nous utilisons un discriminateur MetricGAN (MGD) ainsi qu’un discriminateur à spectrogramme à multiple résolution (MRSD) afin d’améliorer les métriques de qualité perceptuelle. Les résultats expérimentaux montrent que notre système surpasser divers systèmes d’SE de haut niveau, atteint des performances de l’état de l’art (SOTA) sur le jeu de test DNS-2020 et se classe parmi les trois premiers dans le défi DNS-2023.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp