SCNet : Réseau de compression creuse pour la séparation des sources musicales

Les méthodes fondées sur l’apprentissage profond ont obtenu des progrès significatifs dans la séparation des sources musicales. Toutefois, parvenir à de bons résultats tout en maintenant une faible complexité du modèle reste un défi majeur dans le cadre de la séparation des sources musicales sur large bande. Les travaux antérieurs négligent souvent les différences entre les sous-bandes ou traitent de manière insuffisante le problème de perte d’information lors de la génération des caractéristiques de sous-bandes. Dans cet article, nous proposons SCNet, un nouveau réseau en domaine fréquentiel, conçu pour séparer explicitement le spectrogramme du mélange en plusieurs sous-bandes, et introduisons un encodeur basé sur la parcimonie afin de modéliser de manière adaptée les différentes bandes fréquentielles. Nous appliquons un taux de compression plus élevé aux sous-bandes contenant moins d’information, afin d’améliorer la densité d’information, tout en accordant une attention particulière aux sous-bandes portant davantage d’informations. Cette approche permet ainsi d’améliorer significativement les performances de séparation tout en réduisant la consommation de calcul. Les résultats expérimentaux montrent que le modèle proposé atteint un rapport signal à distorsion (SDR) de 9,0 dB sur le jeu de données MUSDB18-HQ sans utiliser de données supplémentaires, surpassant ainsi les méthodes de pointe actuelles. En particulier, le temps d’inférence sur CPU de SCNet n’est que de 48 % de celui de HT Demucs, l’une des méthodes les plus performantes précédemment publiées.