CMGAN : Conformer-Based Metric-GAN pour l’amélioration du discours monaural

Dans cette étude, nous développons davantage le modèle de réseau génératif adversarial basé sur les conformers (CMGAN) pour l'amélioration du discours (SE) dans le domaine temps-fréquence (TF). Cet article s'appuie sur nos travaux précédents mais approfondit l'analyse en menant des études d'ablation exhaustives sur les entrées du modèle et les choix de conception architecturale. Nous avons rigoureusement testé la capacité de généralisation du modèle à des types de bruit et des distorsions non vus. Nos affirmations sont renforcées par des mesures DNS-MOS et des tests d'écoute. Au lieu de nous concentrer uniquement sur la tâche de débruitage vocal, nous étendons cette recherche pour aborder les tâches de déréverbération et de super-résolution. Ceci a nécessité d'explorer diverses modifications architecturales, notamment les scores du discriminant métrique et les techniques de masquage. Il est essentiel de souligner que ce travail fait partie des premiers à avoir tenté une super-résolution complexe dans le domaine TF. Nos résultats montrent que le CMGAN surpassent les méthodes existantes de pointe dans les trois principales tâches d'amélioration du discours : débruitage, déréverbération et super-résolution. Par exemple, dans la tâche de débruitage utilisant le jeu de données Voice Bank+DEMAND, le CMGAN a nettement surpassé les performances des modèles antérieurs, atteignant un score PESQ de 3,41 et un SSNR de 11,10 dB. Des échantillons audio et des implémentations du CMGAN sont disponibles en ligne.