FullSubNet+: Channel Attention FullSubNet mit komplexen Spektrogrammen für Sprachverbesserung

Bisher vorgeschlagene FullSubNet hat hervorragende Leistung im Deep Noise Suppression (DNS)-Wettbewerb erzielt und erhebliche Aufmerksamkeit erweckt. Dennoch treten weiterhin Probleme wie eine Eingabe-Ausgabe-Abweichung sowie eine grobe Behandlung von Frequenzbändern auf. In diesem Paper stellen wir einen erweiterten, einkanaligen Echtzeit-Sprachverbesserungsrahmen namens FullSubNet+ vor, der folgende bedeutende Verbesserungen umfasst. Erstens entwickeln wir ein leichtgewichtiges, mehrskaliges zeitlich sensitives Kanal-Attention-Modul (MulCA), das mehrskalige Faltung und ein Kanal-Attention-Mechanismus nutzt, um dem Netzwerk zu helfen, sich auf diskriminativere Frequenzbänder zur Rauschunterdrückung zu konzentrieren. Zweitens nutzen wir zur optimalen Ausnutzung der Phaseninformation in geräuschbehafteten Sprachsignalen alle Spektrogramme – sowohl die Magnituden-, Real- als auch Imaginärteile – als Eingaben. Darüber hinaus ersetzen wir die langen kurzen Gedächtnis-Schichten (LSTM) im ursprünglichen Vollband-Modell durch gestapelte zeitliche Faltungsnetzwerk-Blöcke (TCN), um ein effizienteres Vollband-Modul namens Full-Band Extractor zu entwerfen. Die experimentellen Ergebnisse auf dem DNS-Challenge-Datensatz zeigen die überlegene Leistung unseres FullSubNet+, das die derzeit beste (SOTA) Leistung erreicht und andere bestehende Ansätze zur Sprachverbesserung übertrifft.