Command Palette
Search for a command to run...
D²Net: Ein Rauschunterdrückungs- und Nachhallunterdrückungsnetzwerk auf der Basis eines Zweig-Encoder und eines Dual-Path-Transformer
D²Net: Ein Rauschunterdrückungs- und Nachhallunterdrückungsnetzwerk auf der Basis eines Zweig-Encoder und eines Dual-Path-Transformer
and Ying Hu Yadong Chen Wenbing Wei Liusong Wang
Zusammenfassung
Die gleichzeitige Rauschunterdrückung und Nachhallunterdrückung für einkanalige Mischungssprache unter komplexen akustischen Bedingungen gilt als herausfordernde Aufgabe. In diesem Artikel stellen wir ein Rausch- und Nachhallunterdrückungsnetzwerk namens D²Net vor, bei dem ein zweigeteilter Encoder (TBE) entworfen wurde, um Merkmale mit unterschiedlicher Granularität zu extrahieren und selektiv zu fusionieren. Darüber hinaus entwickeln wir einen global-lokalen Dual-Path-Transformer (GLDPT), der die lokale dichte Synthesizer-Attention (LDSA) in den Dual-Path-Transformer integriert, um die Wahrnehmung lokaler Informationen zu verbessern. Wir bewerten unser vorgeschlagenes D²Net und führen Ablationstudien auf den Datensätzen VoiceBank+DEMAND und WHAMR! durch. Gleichzeitig wählen wir drei verschiedene Datentypen aus dem WHAMR!-Datensatz aus, um die Fähigkeit des D²Net für die Aufgaben Rauschunterdrückung allein, Nachhallunterdrückung allein sowie gleichzeitige Rausch- und Nachhallunterdrückung jeweils zu verifizieren. Die experimentellen Ergebnisse zeigen, dass unser vorgeschlagenes Modell die vergleichbaren Modelle übertrifft und bei allen drei Aufgaben – gleichzeitige Rausch- und Nachhallunterdrückung, Nachhallunterdrückung allein sowie Rauschunterdrückung allein – eine bessere Leistung erzielt, wobei die Anzahl der Netzwerkparameter gering gehalten wird.