HyperAIHyperAI
il y a 15 jours

Séparation de sources musicales avec RNN à division en bandes

Yi Luo, Jianwei Yu
Séparation de sources musicales avec RNN à division en bandes
Résumé

Les performances des modèles de séparation de sources musicales (MSS) ont considérablement progressé ces dernières années grâce au développement de nouvelles architectures de réseaux de neurones et de pipelines d’entraînement. Toutefois, les conceptions récentes de modèles pour la MSS ont principalement été motivées par d’autres tâches de traitement audio ou d’autres domaines de recherche, sans qu’elles n’aient pleinement exploité les caractéristiques intrinsèques et les motifs propres aux signaux musicaux. Dans cet article, nous proposons BSRNN (band-split RNN), un modèle en domaine fréquentiel qui divise explicitement le spectrogramme du mélange en sous-bandes et effectue une modélisation alternée au niveau des sous-bandes et au niveau de la séquence. Le choix des largeurs de ces sous-bandes peut être guidé par des connaissances a priori ou par des connaissances expertes sur les caractéristiques de la source cible, afin d’optimiser les performances sur un type spécifique d’instrument musical. Afin d’exploiter de manière plus efficace les données non étiquetées, nous décrivons également un pipeline de finetuning semi-supervisé qui permet d’améliorer davantage les performances du modèle. Les résultats expérimentaux montrent que BSRNN entraîné uniquement sur le jeu de données MUSDB18-HQ surpasse significativement plusieurs modèles de haut niveau lors du Music Demixing (MDX) Challenge 2021, et que l’étape de finetuning semi-supervisé améliore encore les performances sur les quatre pistes instrumentales.

Séparation de sources musicales avec RNN à division en bandes | Articles de recherche récents | HyperAI