HyperAIHyperAI

Command Palette

Search for a command to run...

D²Net: Ein Rauschunterdrückungs- und Nachhallunterdrückungsnetzwerk auf der Basis eines Zweig-Encoder und eines Dual-Path-Transformer

and Ying Hu Yadong Chen Wenbing Wei Liusong Wang

Zusammenfassung

Die gleichzeitige Rauschunterdrückung und Nachhallunterdrückung für einkanalige Mischungssprache unter komplexen akustischen Bedingungen gilt als herausfordernde Aufgabe. In diesem Artikel stellen wir ein Rausch- und Nachhallunterdrückungsnetzwerk namens D²Net vor, bei dem ein zweigeteilter Encoder (TBE) entworfen wurde, um Merkmale mit unterschiedlicher Granularität zu extrahieren und selektiv zu fusionieren. Darüber hinaus entwickeln wir einen global-lokalen Dual-Path-Transformer (GLDPT), der die lokale dichte Synthesizer-Attention (LDSA) in den Dual-Path-Transformer integriert, um die Wahrnehmung lokaler Informationen zu verbessern. Wir bewerten unser vorgeschlagenes D²Net und führen Ablationstudien auf den Datensätzen VoiceBank+DEMAND und WHAMR! durch. Gleichzeitig wählen wir drei verschiedene Datentypen aus dem WHAMR!-Datensatz aus, um die Fähigkeit des D²Net für die Aufgaben Rauschunterdrückung allein, Nachhallunterdrückung allein sowie gleichzeitige Rausch- und Nachhallunterdrückung jeweils zu verifizieren. Die experimentellen Ergebnisse zeigen, dass unser vorgeschlagenes Modell die vergleichbaren Modelle übertrifft und bei allen drei Aufgaben – gleichzeitige Rausch- und Nachhallunterdrückung, Nachhallunterdrückung allein sowie Rauschunterdrückung allein – eine bessere Leistung erzielt, wobei die Anzahl der Netzwerkparameter gering gehalten wird.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp