HyperAIHyperAI
vor 3 Monaten

PrimeK-Net: Multiskaliges Spektrallernen mittels Gruppen-Prime-Kernel-Faltungsneuraler Netze für die Sprachverbesserung in Einzelspuren

Zizhen Lin, Junyu Wang, Ruili Li, Fei Shen, Xi Xuan
PrimeK-Net: Multiskaliges Spektrallernen mittels Gruppen-Prime-Kernel-Faltungsneuraler Netze für die Sprachverbesserung in Einzelspuren
Abstract

Die Einzelkanal-Sprachverbesserung ist ein herausforderndes, schlecht gestelltes Problem, das darauf abzielt, saubere Sprache aus beeinträchtigten Signalen zu schätzen. Bestehende Studien haben die herausragende Leistungsfähigkeit der Kombination von Faltungsneuralen Netzen (CNNs) mit Transformers bei Sprachverbesserungsaufgaben gezeigt. Allerdings haben bestehende Architekturen die computationale Effizienz noch nicht ausreichend berücksichtigt und die natürliche multiskalige Verteilung des Spektrums übersehen. Zudem wurde das volle Potenzial von CNNs in der Sprachverbesserung bisher noch nicht ausgeschöpft. Um diese Probleme anzugehen, wird in dieser Arbeit ein tiefes separables dilatiertes Dichteblock-Modul (Deep Separable Dilated Dense Block, DSDDB) sowie ein Gruppen-Primkern-Feedforward-Kanal-Attention-Modul (Group Prime Kernel Feedforward Channel Attention, GPFCA) vorgeschlagen. Insbesondere erhöht der DSDDB die Parameter- und Recheneffizienz im Encoder/Decoder bestehender Frameworks. Das GPFCA-Modul ersetzt die Position des Conformer und extrahiert tiefgehende zeitliche und frequenzbasierte Merkmale des Spektrums mit linearer Komplexität. Dabei nutzt das GPFCA das vorgeschlagene Gruppen-Primkern-Feedforward-Netzwerk (Group Prime Kernel Feedforward Network, GPFN), um Rezeptivfelder unterschiedlicher Granularität – langreichweitig, mittelreichweitig und kurzreichweitig – zu integrieren, und nutzt gleichzeitig die Eigenschaften von Primzahlen, um periodische Überlappungseffekte zu vermeiden. Experimentelle Ergebnisse zeigen, dass das in dieser Arbeit vorgestellte PrimeK-Net auf dem VoiceBank+Demand-Datensatz eine state-of-the-art (SOTA)-Leistung erreicht und mit nur 1,41 Mio. Parametern eine PESQ-Score von 3,61 erzielt.