HyperAIHyperAI

Command Palette

Search for a command to run...

CMGAN : Conformer-Based Metric-GAN pour l’amélioration du discours monaural

Sherif Abdulatif Ruizhe Cao Bin Yang

Résumé

Dans cette étude, nous développons davantage le modèle de réseau génératif adversarial basé sur les conformers (CMGAN) pour l'amélioration du discours (SE) dans le domaine temps-fréquence (TF). Cet article s'appuie sur nos travaux précédents mais approfondit l'analyse en menant des études d'ablation exhaustives sur les entrées du modèle et les choix de conception architecturale. Nous avons rigoureusement testé la capacité de généralisation du modèle à des types de bruit et des distorsions non vus. Nos affirmations sont renforcées par des mesures DNS-MOS et des tests d'écoute. Au lieu de nous concentrer uniquement sur la tâche de débruitage vocal, nous étendons cette recherche pour aborder les tâches de déréverbération et de super-résolution. Ceci a nécessité d'explorer diverses modifications architecturales, notamment les scores du discriminant métrique et les techniques de masquage. Il est essentiel de souligner que ce travail fait partie des premiers à avoir tenté une super-résolution complexe dans le domaine TF. Nos résultats montrent que le CMGAN surpassent les méthodes existantes de pointe dans les trois principales tâches d'amélioration du discours : débruitage, déréverbération et super-résolution. Par exemple, dans la tâche de débruitage utilisant le jeu de données Voice Bank+DEMAND, le CMGAN a nettement surpassé les performances des modèles antérieurs, atteignant un score PESQ de 3,41 et un SSNR de 11,10 dB. Des échantillons audio et des implémentations du CMGAN sont disponibles en ligne.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
CMGAN : Conformer-Based Metric-GAN pour l’amélioration du discours monaural | Articles | HyperAI