HyperAIHyperAI

Command Palette

Search for a command to run...

phasenbewusste einstufige Sprachrauschunterdrückung und Nachhallunterdrückung mit U-Net

Hyeong-Seok Choi Hoon Heo Jie Hwan Lee Kyogu Lee

Zusammenfassung

In dieser Arbeit behandeln wir ein Rauschunterdrückungs- und Nachhallunterdrückungsproblem mit einem einstufigen Rahmenwerk. Obwohl Rauschunterdrückung und Nachhallunterdrückung als zwei getrennte, anspruchsvolle Aufgaben angesehen werden können und daher typischerweise zwei getrennte Module erfordern, zeigen wir, dass ein einzelnes tiefes Netzwerk zur Lösung beider Probleme genutzt werden kann. Dazu stellen wir eine neue Maskenmethode namens phase-aware beta-sigmoid mask (PHM) vor, die die geschätzten Betragswerte wiederverwendet, um die saubere Phase auf Basis der Dreiecksungleichung im komplexen Bereich zwischen drei Signalkomponenten – Mischsignal, Quelle und Rest – zu schätzen. Zwei PHMs werden eingesetzt, um die direkte und die nachhallbehaftete Quelle zu behandeln, wodurch der Anteil des Nachhalls im verbesserten Sprachsignal zur Inference-Zeit kontrolliert werden kann. Zusätzlich schlagen wir eine neue zeitdomänenbasierte Verlustfunktion vor, die die Leistung der Sprachverbesserung verbessert, und zeigen im Vergleich zur MSE-Verlustfunktion im komplexen Bereich eine signifikante Leistungssteigerung. Schließlich wird eine Optimierungsstrategie für U-Net vorgestellt, die eine Echtzeit-Inferenz ermöglicht und den Rechenaufwand im Vergleich zur naiven Version um bis zu 88,9 % reduziert.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp