il y a 6 mois

Résumé

Malgré les progrès rapides réalisés dans le domaine de l’amélioration de la parole (SE), l’amélioration de la qualité de la parole cible dans des environnements caractérisés par un bruit intense et la présence de locuteurs interférants reste un défi. Dans cet article, nous étendons l’application du modèle récemment proposé, le RNN à division de bande (BSRNN), aux tâches d’amélioration de la parole sur bande complète (full-band SE) et d’amélioration de la parole personnalisée (PSE). Afin de atténuer les effets des composantes haute fréquence instables présentes dans la parole sur bande complète, nous appliquons une modélisation bidirectionnelle aux sous-bandes basses fréquences et une modélisation unidirectionnelle aux sous-bandes hautes fréquences. Pour la tâche de PSE, nous intégrons un module d’enrôlement vocal au BSRNN afin d’exploiter les informations relatives au locuteur cible. En outre, nous utilisons un discriminateur MetricGAN (MGD) ainsi qu’un discriminateur à spectrogramme à multiple résolution (MRSD) afin d’améliorer les métriques de qualité perceptuelle. Les résultats expérimentaux montrent que notre système surpasser divers systèmes d’SE de haut niveau, atteint des performances de l’état de l’art (SOTA) sur le jeu de test DNS-2020 et se classe parmi les trois premiers dans le défi DNS-2023.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Traitement Audio Et Vocal

Apprentissage Multi-tâches

Apprentissage Profond

Jianwei Yu Yi Luo Hangting Chen Rongzhi Gu Chao Weng

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Traitement Audio Et Vocal

Apprentissage Multi-tâches

Apprentissage Profond

Jianwei Yu Yi Luo Hangting Chen Rongzhi Gu Chao Weng

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Amélioration de parole de haute fidélité basée sur un RNN par bande

Jianwei Yu Yi Luo Hangting Chen Rongzhi Gu Chao Weng

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Amélioration de parole de haute fidélité basée sur un RNN par bande

Jianwei Yu Yi Luo Hangting Chen Rongzhi Gu Chao Weng

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Amélioration de parole de haute fidélité basée sur un RNN par bande

Jianwei Yu Yi Luo Hangting Chen Rongzhi Gu Chao Weng

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters