Command Palette
Search for a command to run...
Apprentissage par contraste basé sur une masquage profond latent pour la séparation des sources musicales
Apprentissage par contraste basé sur une masquage profond latent pour la séparation des sources musicales
Hong-Goo Kang Jihyun Kim
Résumé
Des études récentes sur la séparation de sources musicales ont étendu leur applicabilité aux signaux audio génériques. Les applications en temps réel de la séparation de sources musicales sont essentielles pour offrir des services tels que des égaliseurs personnalisés ou pour améliorer la qualité sonore des diffusions en direct grâce à divers effets. Toutefois, la plupart des méthodes antérieures ne conviennent pas à ces applications en temps réel en raison de leur complexité computationnelle élevée, de leur usage important de mémoire ou de leur latence importante. Pour surmonter ces limitations, nous proposons un réseau de séparation de sources musicales de type Wave-U-Net, qui exploite un masquage à haute dimension pour les caractéristiques latentes profondes. Nous introduisons également une technique d’apprentissage contrastif afin d’estimer l’encodage latent significatif de chaque source cible via une approche basée sur le masquage. La performance de notre modèle est évaluée sur le jeu de données MUSDB18HQ en comparaison avec plusieurs méthodes de référence. Les expériences confirment que notre modèle est capable de traitement en temps réel et dépasse les modèles existants.