CWS-PResUNet : Séparation de sources musicales avec un modèle ResUNet sensible à la phase sous-bande par canal

La séparation de sources musicales (MSS) connaît des progrès significatifs ces dernières années grâce aux modèles basés sur l’apprentissage profond. De nombreux modèles de MSS effectuent la séparation sur des spectrogrammes en estimant des masques de ratio bornés tout en réutilisant les phases du mélange. Lorsqu’on utilise des réseaux de neurones convolutifs (CNN), les poids sont généralement partagés au sein d’un même spectrogramme, indépendamment des différences de motifs entre les bandes de fréquence. Dans cette étude, nous proposons un nouveau modèle de MSS, le CWS-PResUNet (ResUNet à prise en compte des phases par sous-bande et par canal), conçu pour décomposer les signaux en sous-bandes et estimer un masque de ratio idéal complexe non borné (cIRM) pour chaque source. Le CWS-PResUNet exploite un extrait de caractéristiques par sous-bande et par canal (CWS) afin de limiter le partage global des poids sur le spectrogramme et de réduire la consommation de ressources computationnelles. Ce gain de ressources computationnelles et mémoire permet en retour de concevoir une architecture plus large. Sur le jeu de test MUSDB18HQ, nous proposons un CWS-PResUNet de 276 couches, atteignant une performance de pointe (SoTA) pour la voix, avec un score de rapport signal à distorsion (SDR) de 8,92. En combinant le CWS-PResUNet avec Demucs, notre système ByteMSS obtient la 2e place pour la voix et la 5e place en moyenne sur le classement du défi 2021 ISMIR Music Demixing (MDX), dans la catégorie « données d’entraînement limitées » (leaderboard A). Le code source et les modèles pré-entraînés sont disponibles publiquement à l’adresse suivante : https://github.com/haoheliu/2021-ISMIR-MSS-Challenge-CWS-PResUNet