HyperAIHyperAI

Command Palette

Search for a command to run...

Ein maskenfreies neuronales Netzwerk für monaurale Sprachverbesserung

Liang Liu Haixin Guan Jinlong Ma Wei Dai Guangyong Wang Shaowei Ding

Zusammenfassung

Bei der Sprachverbesserung fehlen den Ziel-Sprachphasen klare strukturelle Merkmale, was die Verwendung konservativer und aufwändiger Netzwerkarchitekturen erfordert. Es scheint schwierig, mit direkten Methoden und einfachen Netzwerken konkurrenzfähige Leistung zu erzielen. Wir stellen jedoch MFNet vor, ein direktes und einfaches Netzwerk, das nicht nur die Sprache, sondern auch den inversen Geräuschanteil abbilden kann. Das Netzwerk basiert auf der Stapelung von global-local-Former-Blöcken (GLFBs), die die Vorteile von Mobileblock für globale Verarbeitung und die Metaformer-Architektur für lokale Interaktion vereinen. Unsere experimentellen Ergebnisse zeigen, dass unser Netzwerk mit der Abbildungsmethode Maskierungsmethoden übertrifft und die direkte Abbildung des inversen Rauschanteils in Umgebungen mit starkem Rauschen die optimale Lösung darstellt. In einem horizontalen Vergleich auf dem Testset der 2020er Deep Noise Suppression (DNS)-Challenge ohne Nachhall ist MFNet, soweit uns bekannt, derzeit der Stand der Technik (SOTA) unter den Abbildungsmodellen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp