vor 2 Monaten

Wave-U-Net: Ein Mehrebenen-Neuronales Netzwerk für die End-to-End-Audiosourcen-Trennung

Daniel Stoller; Sebastian Ewert; Simon Dixon

Abstract

Modelle für die Trennung von Audiosignalquellen arbeiten in der Regel mit dem Amplitudenspektrum, das Phaseninformationen ignoriert und die Trennleistung von Hyperparametern des spektralen Frontends abhängig macht. Daher untersuchen wir die end-to-end Trennung im Zeitbereich, die es ermöglicht, Phaseninformationen zu modellieren und feste spektrale Transformationen zu vermeiden. Aufgrund hoher Abtastraten für Audio ist die Verwendung eines langen zeitlichen Kontextes auf der Stufe einzelner Samples schwierig, wird jedoch für hochwertige Trennresultate benötigt, da sie auf langreichweitigen zeitlichen Korrelationen basieren. In diesem Zusammenhang schlagen wir das Wave-U-Net vor, eine Anpassung des U-Net an den eindimensionalen Zeitbereich, das Featuremaps wiederholt resamples, um Merkmale in verschiedenen Zeitskalen zu berechnen und zu kombinieren. Wir führen weitere architekturale Verbesserungen ein, darunter eine Ausgabeschicht, die Quelladditivität erzwingt, eine Upsampling-Technik und einen kontextbewussten Vorhersagerahmen zur Reduktion von Ausgabeartefakten. Experimente zur Trennung der Gesangsstimme zeigen an, dass unsere Architektur bei gleichen Daten eine Leistung erzielt, die sich mit einer state-of-the-art-Spektrogramm-basierten U-Net-Architektur vergleichen lässt. Schließlich weisen wir auf ein Problem hin, das durch Ausreißer in den aktuell verwendeten SDR-Bewertungsmaßen entsteht, und empfehlen den Bericht von rangbasierten Statistiken zur Milderung dieses Problems.