HyperAIHyperAI

Command Palette

Search for a command to run...

Wave-U-Net: Ein Mehrebenen-Neuronales Netzwerk für die End-to-End-Audiosourcen-Trennung

Daniel Stoller; Sebastian Ewert; Simon Dixon

Zusammenfassung

Modelle für die Trennung von Audiosignalquellen arbeiten in der Regel mit dem Amplitudenspektrum, das Phaseninformationen ignoriert und die Trennleistung von Hyperparametern des spektralen Frontends abhängig macht. Daher untersuchen wir die end-to-end Trennung im Zeitbereich, die es ermöglicht, Phaseninformationen zu modellieren und feste spektrale Transformationen zu vermeiden. Aufgrund hoher Abtastraten für Audio ist die Verwendung eines langen zeitlichen Kontextes auf der Stufe einzelner Samples schwierig, wird jedoch für hochwertige Trennresultate benötigt, da sie auf langreichweitigen zeitlichen Korrelationen basieren. In diesem Zusammenhang schlagen wir das Wave-U-Net vor, eine Anpassung des U-Net an den eindimensionalen Zeitbereich, das Featuremaps wiederholt resamples, um Merkmale in verschiedenen Zeitskalen zu berechnen und zu kombinieren. Wir führen weitere architekturale Verbesserungen ein, darunter eine Ausgabeschicht, die Quelladditivität erzwingt, eine Upsampling-Technik und einen kontextbewussten Vorhersagerahmen zur Reduktion von Ausgabeartefakten. Experimente zur Trennung der Gesangsstimme zeigen an, dass unsere Architektur bei gleichen Daten eine Leistung erzielt, die sich mit einer state-of-the-art-Spektrogramm-basierten U-Net-Architektur vergleichen lässt. Schließlich weisen wir auf ein Problem hin, das durch Ausreißer in den aktuell verwendeten SDR-Bewertungsmaßen entsteht, und empfehlen den Bericht von rangbasierten Statistiken zur Milderung dieses Problems.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Wave-U-Net: Ein Mehrebenen-Neuronales Netzwerk für die End-to-End-Audiosourcen-Trennung | Paper | HyperAI