il y a 8 mois

Résumé

Dans cette étude, nous développons davantage le modèle de réseau génératif adversarial basé sur les conformers (CMGAN) pour l'amélioration du discours (SE) dans le domaine temps-fréquence (TF). Cet article s'appuie sur nos travaux précédents mais approfondit l'analyse en menant des études d'ablation exhaustives sur les entrées du modèle et les choix de conception architecturale. Nous avons rigoureusement testé la capacité de généralisation du modèle à des types de bruit et des distorsions non vus. Nos affirmations sont renforcées par des mesures DNS-MOS et des tests d'écoute. Au lieu de nous concentrer uniquement sur la tâche de débruitage vocal, nous étendons cette recherche pour aborder les tâches de déréverbération et de super-résolution. Ceci a nécessité d'explorer diverses modifications architecturales, notamment les scores du discriminant métrique et les techniques de masquage. Il est essentiel de souligner que ce travail fait partie des premiers à avoir tenté une super-résolution complexe dans le domaine TF. Nos résultats montrent que le CMGAN surpassent les méthodes existantes de pointe dans les trois principales tâches d'amélioration du discours : débruitage, déréverbération et super-résolution. Par exemple, dans la tâche de débruitage utilisant le jeu de données Voice Bank+DEMAND, le CMGAN a nettement surpassé les performances des modèles antérieurs, atteignant un score PESQ de 3,41 et un SSNR de 11,10 dB. Des échantillons audio et des implémentations du CMGAN sont disponibles en ligne.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Traitement Audio Et Vocal

Apprentissage Multi-tâches

Sherif Abdulatif Ruizhe Cao Bin Yang

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Traitement Audio Et Vocal

Apprentissage Multi-tâches

Sherif Abdulatif Ruizhe Cao Bin Yang

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

CMGAN : Conformer-Based Metric-GAN pour l’amélioration du discours monaural

Sherif Abdulatif Ruizhe Cao Bin Yang

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

CMGAN : Conformer-Based Metric-GAN pour l’amélioration du discours monaural

Sherif Abdulatif Ruizhe Cao Bin Yang

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

CMGAN : Conformer-Based Metric-GAN pour l’amélioration du discours monaural

Sherif Abdulatif Ruizhe Cao Bin Yang

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters