Hohe Fidelity Sprachverbesserung mit bandgeteiltem RNN

Trotz des raschen Fortschritts in der Forschung zum Sprachverbesserung (Speech Enhancement, SE) bleibt die Verbesserung der Qualität der gewünschten Sprache in Umgebungen mit starker Hintergrundgeräusche und störenden Sprechern weiterhin herausfordernd. In diesem Paper erweitern wir die Anwendung des kürzlich vorgeschlagenen Band-Split-RNN (BSRNN)-Modells auf vollbandige SE- und personalisierte SE-(PSE)-Aufgaben. Um die Auswirkungen instabiler Hochfrequenzkomponenten im vollbandigen Sprachsignal zu verringern, führen wir eine bidirektionale Modellierung für die Niederfrequenz- und eine einseitige Modellierung für die Hochfrequenzunterbänder durch. Für die PSE-Aufgabe integrieren wir einen Sprecher-Enrollment-Modul in das BSRNN, um Informationen über den Ziel-Sprecher zu nutzen. Zudem setzen wir einen MetricGAN-Detektor (MGD) und einen Multi-Resolution-Spektrogramm-Detektor (MRSD) ein, um die perceptuelle Qualitätsmetrik zu verbessern. Experimentelle Ergebnisse zeigen, dass unser System verschiedene führende SE-Systeme übertrifft, state-of-the-art (SOTA)-Ergebnisse auf dem DNS-2020-Testset erzielt und sich unter den Top 3 der DNS-2023-Challenge befindet.