CWS-PResUNet: Musikquellentrennung mit kanalweiser Unterbandsphasenberücksichtigung durch ResUNet

Die Musikquellentrennung (Music Source Separation, MSS) hat in den letzten Jahren mit tiefen Lernmodellen erhebliche Fortschritte gemacht. Viele MSS-Modelle führen die Trennung auf Spektrogrammen durch, indem sie beschränkte Ratio-Masken schätzen und die Phasen des gemischten Signals wiederverwenden. Bei der Verwendung von Faltungsneuralen Netzen (CNN) werden die Gewichte innerhalb eines Spektrogramms typischerweise global geteilt, unabhängig von den unterschiedlichen Mustern zwischen den Frequenzbändern. In dieser Studie stellen wir ein neues MSS-Modell vor: das kanalweise Unterbandphasen-berücksichtigende ResUNet (Channel-wise Subband Phase-aware ResUNet, CWS-PResUNet), das Signale in Unterbänder zerlegt und für jede Quelle eine unbeschränkte komplexe ideale Ratio-Maske (complex Ideal Ratio Mask, cIRM) schätzt. Das CWS-PResUNet nutzt eine kanalweise Unterband-(CWS)-Funktion, um eine unnötige globale Gewichtsteilung im Spektrogramm zu vermeiden und den Ressourcenverbrauch an Rechenleistung und Speicher zu reduzieren. Die eingesparten Ressourcen ermöglichen es wiederum, eine größere Architektur zu realisieren. Auf dem MUSDB18HQ-Testset erreichen wir mit einem 276-Schichten-CWS-PResUNet eine state-of-the-art-(SoTA)-Leistung bei der Trennung von Gesang mit einem Signal-zu-Störungsverhältnis (SDR) von 8,92. Durch die Kombination von CWS-PResUNet und Demucs erreicht unser ByteMSS-System im 2021 ISMIR Music Demixing (MDX) Challenge im Track mit begrenzten Trainingsdaten (Leaderboard A) den 2. Platz bei der Gesangstrennung und den 5. Platz im Durchschnitt. Unsere Code-Implementierung und vortrainierten Modelle sind öffentlich zugänglich unter: https://github.com/haoheliu/2021-ISMIR-MSS-Challenge-CWS-PResUNet