Ein maskenfreies neuronales Netzwerk für monaurale Sprachverbesserung

Bei der Sprachverbesserung fehlen den Ziel-Sprachphasen klare strukturelle Merkmale, was die Verwendung konservativer und aufwändiger Netzwerkarchitekturen erfordert. Es scheint schwierig, mit direkten Methoden und einfachen Netzwerken konkurrenzfähige Leistung zu erzielen. Wir stellen jedoch MFNet vor, ein direktes und einfaches Netzwerk, das nicht nur die Sprache, sondern auch den inversen Geräuschanteil abbilden kann. Das Netzwerk basiert auf der Stapelung von global-local-Former-Blöcken (GLFBs), die die Vorteile von Mobileblock für globale Verarbeitung und die Metaformer-Architektur für lokale Interaktion vereinen. Unsere experimentellen Ergebnisse zeigen, dass unser Netzwerk mit der Abbildungsmethode Maskierungsmethoden übertrifft und die direkte Abbildung des inversen Rauschanteils in Umgebungen mit starkem Rauschen die optimale Lösung darstellt. In einem horizontalen Vergleich auf dem Testset der 2020er Deep Noise Suppression (DNS)-Challenge ohne Nachhall ist MFNet, soweit uns bekannt, derzeit der Stand der Technik (SOTA) unter den Abbildungsmodellen.