HyperAIHyperAI

Command Palette

Search for a command to run...

Dual-Signal-Transformation-LSTM-Netzwerk für die Echtzeit-Rauschunterdrückung

Nils L. Westhausen Bernd T. Meyer

Zusammenfassung

Diese Arbeit stellt ein Dual-Signal-Transformation-LSTM-Netzwerk (DTLN) für die Echtzeit-Sprachverbesserung im Rahmen der Deep Noise Suppression Challenge (DNS-Challenge) vor. Dieser Ansatz kombiniert eine kurzfristige Fourier-Transformation (STFT) mit einer gelernten Analyse- und Synthesebasis in einem gestapelten Netzwerkansatz mit weniger als einer Million Parameter. Das Modell wurde auf 500 Stunden geräuscher Sprache trainiert, die von den Herausgebern der Challenge bereitgestellt wurden. Das Netzwerk ermöglicht Echtzeitverarbeitung (ein Frame als Eingabe, ein Frame als Ausgabe) und erzielt wettbewerbsfähige Ergebnisse. Die Kombination beider Signaltransformationen ermöglicht es der DTLN, robust Informationen aus den Betrags-Spektren zu extrahieren und Phaseninformationen aus der gelernten Merkmalsbasis zu integrieren. Die Methode erreicht einen state-of-the-art-Leistungsniveau und übertrifft die DNS-Challenge-Benchmark-Methode um 0,24 absolute Punkte im Mittelwert der Meinungsskala (MOS).


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Dual-Signal-Transformation-LSTM-Netzwerk für die Echtzeit-Rauschunterdrückung | Paper | HyperAI