Réseau de convolution temporelle hiérarchique avec encodeur à domaine croisé pour la séparation de sources musicales
Récemment, les méthodes basées sur le domaine temporel (c’est-à-dire les approches qui modélisent directement le signal bruité brut) pour la séparation de sources audio ont montré un potentiel considérable. Dans cet article, nous proposons un modèle qui combine les caractéristiques du domaine du spectrogramme complexe et celles du domaine temporel à l’aide d’un encodeur cross-domain (CDE), et qui utilise un réseau de convolution temporelle hiérarchique (HTCN) pour la séparation de plusieurs sources musicales. Le CDE est conçu pour permettre au réseau de coder efficacement les informations d’interaction entre les caractéristiques du domaine temporel et celles du domaine du spectrogramme complexe. Le HTCN permet quant à lui d’apprendre de manière efficace les dépendances à long terme dans les séries temporelles. Nous avons également conçu une unité de calibration des caractéristiques (FCU), intégrée dans le HTCN, et adopté une stratégie d’entraînement en plusieurs étapes. Une étude d’ablation démontre l’efficacité de chaque composant conçu dans le modèle. Des expériences ont été menées sur le jeu de données MUSDB18. Les résultats expérimentaux indiquent que notre modèle CDE-HTCN surpasser les méthodes de pointe, et améliore de 0,61 dB le score moyen de SDR par rapport à la méthode de pointe actuelle, DEMUCS. Notamment, l’amélioration du score SDR pour la source de basse atteint une marge significative de 0,91 dB.