Monaurale Sprachverbesserung mit komplexem convolutionalem Block-Attention-Modul und gemeinsamen zeitfrequenzbasierten Verlusten

Die tiefen komplexen U-Net-Struktur und die convolutional recurrent network (CRN)-Struktur erreichen den Stand der Technik bei der monauralen Sprachverbesserung. Sowohl das tiefe komplexe U-Net als auch die CRN sind Encoder-Decoder-Architekturen mit Skip-Verbindungen, die stark auf die Repräsentationskraft komplexwertiger Faltungsoperationen angewiesen sind. In diesem Artikel schlagen wir einen komplexen convolutional block attention module (CCBAM) vor, um die Repräsentationskraft komplexwertiger Faltungsoperationen durch die Konstruktion informativerer Merkmale zu steigern. Der CCBAM ist ein leichtgewichtiger und allgemeiner Baustein, der problemlos in beliebige komplexwertige Faltungsoperationen integriert werden kann. Wir integrieren den CCBAM in das tiefe komplexe U-Net und die CRN, um deren Leistung bei der Sprachverbesserung zu verbessern. Zudem schlagen wir eine gemischte Verlustfunktion vor, die die komplexen Modelle gleichzeitig im Zeit-Frequenz-(TF)-Bereich und im Zeitbereich optimiert. Durch die Kombination von CCBAM und der gemischten Verlustfunktion entwickeln wir einen neuen end-to-end (E2E)-Rahmen für komplexe Sprachverbesserung. Ablationsstudien und objektive Bewertungen belegen die überlegene Leistung der vorgeschlagenen Ansätze (https://github.com/modelscope/ClearerVoice-Studio).