vor 17 Tagen

FullSubNet+: Channel Attention FullSubNet mit komplexen Spektrogrammen für Sprachverbesserung

Jun Chen, Zilin Wang, Deyi Tuo, Zhiyong Wu, Shiyin Kang, Helen Meng

Abstract

Bisher vorgeschlagene FullSubNet hat hervorragende Leistung im Deep Noise Suppression (DNS)-Wettbewerb erzielt und erhebliche Aufmerksamkeit erweckt. Dennoch treten weiterhin Probleme wie eine Eingabe-Ausgabe-Abweichung sowie eine grobe Behandlung von Frequenzbändern auf. In diesem Paper stellen wir einen erweiterten, einkanaligen Echtzeit-Sprachverbesserungsrahmen namens FullSubNet+ vor, der folgende bedeutende Verbesserungen umfasst. Erstens entwickeln wir ein leichtgewichtiges, mehrskaliges zeitlich sensitives Kanal-Attention-Modul (MulCA), das mehrskalige Faltung und ein Kanal-Attention-Mechanismus nutzt, um dem Netzwerk zu helfen, sich auf diskriminativere Frequenzbänder zur Rauschunterdrückung zu konzentrieren. Zweitens nutzen wir zur optimalen Ausnutzung der Phaseninformation in geräuschbehafteten Sprachsignalen alle Spektrogramme – sowohl die Magnituden-, Real- als auch Imaginärteile – als Eingaben. Darüber hinaus ersetzen wir die langen kurzen Gedächtnis-Schichten (LSTM) im ursprünglichen Vollband-Modell durch gestapelte zeitliche Faltungsnetzwerk-Blöcke (TCN), um ein effizienteres Vollband-Modul namens Full-Band Extractor zu entwerfen. Die experimentellen Ergebnisse auf dem DNS-Challenge-Datensatz zeigen die überlegene Leistung unseres FullSubNet+, das die derzeit beste (SOTA) Leistung erreicht und andere bestehende Ansätze zur Sprachverbesserung übertrifft.