HyperAIHyperAI

Command Palette

Search for a command to run...

CWS-PResUNet: Musikquellentrennung mit kanalweiser Unterbandsphasenberücksichtigung durch ResUNet

Haohe Liu Qiuqiang Kong Jiafeng Liu

Zusammenfassung

Die Musikquellentrennung (Music Source Separation, MSS) hat in den letzten Jahren mit tiefen Lernmodellen erhebliche Fortschritte gemacht. Viele MSS-Modelle führen die Trennung auf Spektrogrammen durch, indem sie beschränkte Ratio-Masken schätzen und die Phasen des gemischten Signals wiederverwenden. Bei der Verwendung von Faltungsneuralen Netzen (CNN) werden die Gewichte innerhalb eines Spektrogramms typischerweise global geteilt, unabhängig von den unterschiedlichen Mustern zwischen den Frequenzbändern. In dieser Studie stellen wir ein neues MSS-Modell vor: das kanalweise Unterbandphasen-berücksichtigende ResUNet (Channel-wise Subband Phase-aware ResUNet, CWS-PResUNet), das Signale in Unterbänder zerlegt und für jede Quelle eine unbeschränkte komplexe ideale Ratio-Maske (complex Ideal Ratio Mask, cIRM) schätzt. Das CWS-PResUNet nutzt eine kanalweise Unterband-(CWS)-Funktion, um eine unnötige globale Gewichtsteilung im Spektrogramm zu vermeiden und den Ressourcenverbrauch an Rechenleistung und Speicher zu reduzieren. Die eingesparten Ressourcen ermöglichen es wiederum, eine größere Architektur zu realisieren. Auf dem MUSDB18HQ-Testset erreichen wir mit einem 276-Schichten-CWS-PResUNet eine state-of-the-art-(SoTA)-Leistung bei der Trennung von Gesang mit einem Signal-zu-Störungsverhältnis (SDR) von 8,92. Durch die Kombination von CWS-PResUNet und Demucs erreicht unser ByteMSS-System im 2021 ISMIR Music Demixing (MDX) Challenge im Track mit begrenzten Trainingsdaten (Leaderboard A) den 2. Platz bei der Gesangstrennung und den 5. Platz im Durchschnitt. Unsere Code-Implementierung und vortrainierten Modelle sind öffentlich zugänglich unter: https://github.com/haoheliu/2021-ISMIR-MSS-Challenge-CWS-PResUNet


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
CWS-PResUNet: Musikquellentrennung mit kanalweiser Unterbandsphasenberücksichtigung durch ResUNet | Paper | HyperAI