HyperAIHyperAI
vor 11 Tagen

Hybride Spektrogramm- und Wellenform-Quellentrennung

Alexandre Défossez
Hybride Spektrogramm- und Wellenform-Quellentrennung
Abstract

Quellentrennungsmodelle arbeiten entweder im Spektrogramm- oder im Wellenformbereich. In dieser Arbeit zeigen wir, wie man eine end-to-end-hybride Quellentrennung durchführen kann, wobei das Modell selbst entscheidet, welcher Bereich für jede Quelle am besten geeignet ist, und sogar beide Bereiche kombiniert. Die vorgeschlagene hybride Variante der Demucs-Architektur gewann den Music Demixing Challenge 2021, organisiert von Sony. Diese Architektur verfügt zudem über zusätzliche Verbesserungen, wie komprimierte Residualzweige, lokale Aufmerksamkeit oder singuläre Wert-Regularisierung. Insgesamt wurde eine Verbesserung der Signal-zu-Störungs-Verhältnisse (SDR) um 1,4 dB über alle Quellen hinweg auf dem MusDB HQ-Datensatz beobachtet, eine Verbesserung, die auch durch subjektive menschliche Bewertungen bestätigt wurde: Die Gesamtqualität wurde mit 2,83 von 5 bewertet (2,36 für die nicht-hybride Demucs-Version), und die Abwesenheit von Kontamination wurde mit 3,04 bewertet (gegenüber 2,37 für die nicht-hybride Demucs und 2,44 für das zweitbeste Modell im Wettbewerb).

Hybride Spektrogramm- und Wellenform-Quellentrennung | Neueste Forschungsarbeiten | HyperAI