phasenbewusste einstufige Sprachrauschunterdrückung und Nachhallunterdrückung mit U-Net

In dieser Arbeit behandeln wir ein Rauschunterdrückungs- und Nachhallunterdrückungsproblem mit einem einstufigen Rahmenwerk. Obwohl Rauschunterdrückung und Nachhallunterdrückung als zwei getrennte, anspruchsvolle Aufgaben angesehen werden können und daher typischerweise zwei getrennte Module erfordern, zeigen wir, dass ein einzelnes tiefes Netzwerk zur Lösung beider Probleme genutzt werden kann. Dazu stellen wir eine neue Maskenmethode namens phase-aware beta-sigmoid mask (PHM) vor, die die geschätzten Betragswerte wiederverwendet, um die saubere Phase auf Basis der Dreiecksungleichung im komplexen Bereich zwischen drei Signalkomponenten – Mischsignal, Quelle und Rest – zu schätzen. Zwei PHMs werden eingesetzt, um die direkte und die nachhallbehaftete Quelle zu behandeln, wodurch der Anteil des Nachhalls im verbesserten Sprachsignal zur Inference-Zeit kontrolliert werden kann. Zusätzlich schlagen wir eine neue zeitdomänenbasierte Verlustfunktion vor, die die Leistung der Sprachverbesserung verbessert, und zeigen im Vergleich zur MSE-Verlustfunktion im komplexen Bereich eine signifikante Leistungssteigerung. Schließlich wird eine Optimierungsstrategie für U-Net vorgestellt, die eine Echtzeit-Inferenz ermöglicht und den Rechenaufwand im Vergleich zur naiven Version um bis zu 88,9 % reduziert.