Séparation de sources musicales basée sur un cadre d'apprentissage profond léger (DTTNET : DUAL-PATH TFC-TDF UNET)

La séparation de sources musicales (MSS) vise à extraire les pistes « voix », « batteries », « basse » et « autres » à partir d’un morceau de musique mélangée. Bien que les méthodes basées sur l’apprentissage profond aient montré des résultats remarquables, une tendance vers des modèles de plus en plus volumineux s’observe. Dans notre article, nous introduisons une nouvelle architecture légère et innovante appelée DTTNet, fondée sur un module à chemins doubles et une convolution temps-fréquence distribuée dans un réseau UNet à couches entièrement connectées temporellement (TFC-TDF UNet). DTTNet atteint un score de 10,12 dB en cSDR pour la piste « voix », surpassant ainsi le résultat de 10,01 dB rapporté pour le modèle Bandsplit RNN (BSRNN), tout en nécessitant 86,7 % de paramètres en moins. Nous évaluons également la performance spécifique aux motifs et la généralisation du modèle face à des motifs audio complexes.