Dual-Signal-Transformation-LSTM-Netzwerk für die Echtzeit-Rauschunterdrückung

Diese Arbeit stellt ein Dual-Signal-Transformation-LSTM-Netzwerk (DTLN) für die Echtzeit-Sprachverbesserung im Rahmen der Deep Noise Suppression Challenge (DNS-Challenge) vor. Dieser Ansatz kombiniert eine kurzfristige Fourier-Transformation (STFT) mit einer gelernten Analyse- und Synthesebasis in einem gestapelten Netzwerkansatz mit weniger als einer Million Parameter. Das Modell wurde auf 500 Stunden geräuscher Sprache trainiert, die von den Herausgebern der Challenge bereitgestellt wurden. Das Netzwerk ermöglicht Echtzeitverarbeitung (ein Frame als Eingabe, ein Frame als Ausgabe) und erzielt wettbewerbsfähige Ergebnisse. Die Kombination beider Signaltransformationen ermöglicht es der DTLN, robust Informationen aus den Betrags-Spektren zu extrahieren und Phaseninformationen aus der gelernten Merkmalsbasis zu integrieren. Die Methode erreicht einen state-of-the-art-Leistungsniveau und übertrifft die DNS-Challenge-Benchmark-Methode um 0,24 absolute Punkte im Mittelwert der Meinungsskala (MOS).