MMDenseLSTM : Une combinaison efficace de réseaux neuronaux convolutifs et récurrents pour la séparation de sources audio

Les réseaux neuronaux profonds sont devenus une technique indispensable pour la séparation des sources audio (ASS). Il a été récemment rapporté qu'une variante de l'architecture CNN appelée MMDenseNet a été utilisée avec succès pour résoudre le problème ASS consistant à estimer les amplitudes des sources, et que des résultats d'état de l'art ont été obtenus pour l'ensemble de données DSD100. Pour améliorer davantage MMDenseNet, nous proposons ici une nouvelle architecture qui intègre des mémoires à court et long terme (LSTM) à plusieurs échelles avec des connexions de saut afin de modéliser efficacement les structures à long terme au sein d'un contexte audio. Les résultats expérimentaux montrent que la méthode proposée surpasse MMDenseNet, LSTM et un mélange des deux réseaux. Le nombre de paramètres et le temps de traitement du modèle proposé sont significativement inférieurs à ceux d'un simple mélange. De plus, la méthode proposée donne de meilleurs résultats que ceux obtenus en utilisant des masques binaires idéaux pour une tâche de séparation de voix chantée.