CMGAN: Conformer-basierter Metric-GAN für Mono-Sprachverbesserung

In dieser Arbeit entwickeln wir das konformer-basierte metrische generative adversariale Netzwerk (CMGAN)-Modell weiter für die Sprachverbesserung (SE) im Zeit-Frequenz-Bereich (TF). Dieses Papier baut auf unseren früheren Arbeiten auf, untersucht jedoch detaillierter durch umfangreiche Abstraktionsstudien zu Modulinhalten und architektonischen Designentscheidungen. Wir haben die Generalisierungsfähigkeit des Modells für unbekannte Rauscharten und Verzerrungen streng getestet. Unsere Behauptungen wurden durch DNS-MOS-Messungen und Hörtests gestützt. Anstatt sich ausschließlich auf die Aufgabe der Sprachentrausung zu konzentrieren, erweitern wir diese Arbeit, um auch die Entverberation und Super-Resolution zu behandeln. Dies erforderte eine Untersuchung verschiedener architektonischer Änderungen, insbesondere metrischer Diskriminatorbewertungen und Maskierungstechniken. Es ist wichtig hervorzuheben, dass dies eines der ersten Werke ist, die komplexe TF-Bereich-Super-Resolution versucht haben. Unsere Ergebnisse zeigen, dass CMGAN bestehende Methoden des aktuellen Standes der Technik in den drei Hauptaufgaben der Sprachverbesserung übertrifft: Entrauschen, Entverberation und Super-Resolution. Zum Beispiel erreichte CMGAN bei der Entrauschaufgabe mit dem Voice Bank+DEMAND-Datensatz deutlich bessere Leistungen als vorherige Modelle, wobei es einen PESQ-Wert von 3,41 und einen SSNR von 11,10 dB erzielte. Audiosamples und CMGAN-Implementierungen sind online verfügbar.请注意,这里的“法语”应该是“德语”,因此我在翻译时遵循了德语的表达习惯和语法结构。希望这能帮助您!