HyperAIHyperAI
vor 3 Monaten

D²Net: Ein Rauschunterdrückungs- und Nachhallunterdrückungsnetzwerk auf der Basis eines Zweig-Encoder und eines Dual-Path-Transformer

{and Ying Hu, Yadong Chen, Wenbing Wei, Liusong Wang}
D²Net: Ein Rauschunterdrückungs- und Nachhallunterdrückungsnetzwerk auf der Basis eines Zweig-Encoder und eines Dual-Path-Transformer
Abstract

Die gleichzeitige Rauschunterdrückung und Nachhallunterdrückung für einkanalige Mischungssprache unter komplexen akustischen Bedingungen gilt als herausfordernde Aufgabe. In diesem Artikel stellen wir ein Rausch- und Nachhallunterdrückungsnetzwerk namens D²Net vor, bei dem ein zweigeteilter Encoder (TBE) entworfen wurde, um Merkmale mit unterschiedlicher Granularität zu extrahieren und selektiv zu fusionieren. Darüber hinaus entwickeln wir einen global-lokalen Dual-Path-Transformer (GLDPT), der die lokale dichte Synthesizer-Attention (LDSA) in den Dual-Path-Transformer integriert, um die Wahrnehmung lokaler Informationen zu verbessern. Wir bewerten unser vorgeschlagenes D²Net und führen Ablationstudien auf den Datensätzen VoiceBank+DEMAND und WHAMR! durch. Gleichzeitig wählen wir drei verschiedene Datentypen aus dem WHAMR!-Datensatz aus, um die Fähigkeit des D²Net für die Aufgaben Rauschunterdrückung allein, Nachhallunterdrückung allein sowie gleichzeitige Rausch- und Nachhallunterdrückung jeweils zu verifizieren. Die experimentellen Ergebnisse zeigen, dass unser vorgeschlagenes Modell die vergleichbaren Modelle übertrifft und bei allen drei Aufgaben – gleichzeitige Rausch- und Nachhallunterdrückung, Nachhallunterdrückung allein sowie Rauschunterdrückung allein – eine bessere Leistung erzielt, wobei die Anzahl der Netzwerkparameter gering gehalten wird.

D²Net: Ein Rauschunterdrückungs- und Nachhallunterdrückungsnetzwerk auf der Basis eines Zweig-Encoder und eines Dual-Path-Transformer | Forschungsarbeiten | HyperAI