HyperAIHyperAI

Command Palette

Search for a command to run...

Konsole
vor 4 Monaten

D²Net: Ein Rauschunterdrückungs- und Nachhallunterdrückungsnetzwerk auf der Basis eines Zweig-Encoder und eines Dual-Path-Transformer

{and Ying Hu Yadong Chen Wenbing Wei Liusong Wang}

D²Net: Ein Rauschunterdrückungs- und Nachhallunterdrückungsnetzwerk auf der Basis eines Zweig-Encoder und eines Dual-Path-Transformer

Abstract

Die gleichzeitige Rauschunterdrückung und Nachhallunterdrückung für einkanalige Mischungssprache unter komplexen akustischen Bedingungen gilt als herausfordernde Aufgabe. In diesem Artikel stellen wir ein Rausch- und Nachhallunterdrückungsnetzwerk namens D²Net vor, bei dem ein zweigeteilter Encoder (TBE) entworfen wurde, um Merkmale mit unterschiedlicher Granularität zu extrahieren und selektiv zu fusionieren. Darüber hinaus entwickeln wir einen global-lokalen Dual-Path-Transformer (GLDPT), der die lokale dichte Synthesizer-Attention (LDSA) in den Dual-Path-Transformer integriert, um die Wahrnehmung lokaler Informationen zu verbessern. Wir bewerten unser vorgeschlagenes D²Net und führen Ablationstudien auf den Datensätzen VoiceBank+DEMAND und WHAMR! durch. Gleichzeitig wählen wir drei verschiedene Datentypen aus dem WHAMR!-Datensatz aus, um die Fähigkeit des D²Net für die Aufgaben Rauschunterdrückung allein, Nachhallunterdrückung allein sowie gleichzeitige Rausch- und Nachhallunterdrückung jeweils zu verifizieren. Die experimentellen Ergebnisse zeigen, dass unser vorgeschlagenes Modell die vergleichbaren Modelle übertrifft und bei allen drei Aufgaben – gleichzeitige Rausch- und Nachhallunterdrückung, Nachhallunterdrückung allein sowie Rauschunterdrückung allein – eine bessere Leistung erzielt, wobei die Anzahl der Netzwerkparameter gering gehalten wird.

Benchmarks

BenchmarkMethodikMetriken
speech-enhancement-on-demandD²Net
CBAK: 3.18
COVL: 3.92
CSIG: 4.63
PESQ (wb): 3.27
STOI: 96

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp