HyperAIHyperAI
il y a 16 jours

LaSAFT : Transformation Fréquentielle Attentive sur la Source Latente pour la Séparation de Sources Conditionnée

Woosung Choi, Minseok Kim, Jaehwa Chung, Soonyoung Jung
LaSAFT : Transformation Fréquentielle Attentive sur la Source Latente pour la Séparation de Sources Conditionnée
Résumé

Les approches récentes basées sur l'apprentissage profond ont montré que les blocs de transformation de fréquence (FT) peuvent considérablement améliorer les modèles de séparation mono-source basés sur les spectrogrammes en capturant des motifs fréquentiels. L'objectif de cet article est d'étendre le bloc FT afin qu'il s'adapte à la tâche de séparation multi-sources. Nous proposons le bloc de transformation de fréquence attentif aux sources latentes (LaSAFT), conçu pour capturer des motifs fréquentiels dépendants des sources. Nous introduisons également la modulation convolutive ponctuelle à porte (GPoCM), une extension de la modulation linéaire par caractéristiques (FiLM), destinée à moduler les caractéristiques internes. En combinant ces deux méthodes novatrices, nous étendons le modèle Conditioned-U-Net (CUNet) à la séparation multi-sources. Les résultats expérimentaux montrent que notre LaSAFT et GPoCM améliorent significativement les performances du CUNet, atteignant un état de l'art en termes de rapport signal à interférence (SDR) sur plusieurs tâches de séparation de sources du jeu de données MUSDB18.

LaSAFT : Transformation Fréquentielle Attentive sur la Source Latente pour la Séparation de Sources Conditionnée | Articles de recherche récents | HyperAI