Deux-étapes pour la séparation des sources sonores : entraînement sur des cibles latentes apprises

Dans cet article, nous proposons une procédure d'entraînement en deux étapes pour la séparation de sources à l'aide d'un réseau de neurones profond. Dans la première étape, nous apprenons une transformation (et son inverse) vers un espace latent où la performance de séparation basée sur le masquage utilisant des oracles est optimale. Pour la deuxième étape, nous entraînons un module de séparation qui opère dans l'espace précédemment appris. Afin de le faire, nous utilisons également une fonction de perte basée sur le rapport signal à distorsion invariant à l'échelle (SI-SDR) qui agit dans l'espace latent, et nous démontrons qu'elle constitue une borne inférieure du SI-SDR dans le domaine temporel. Nous menons diverses expériences de séparation sonore qui montrent que cette approche permet d'obtenir de meilleures performances par rapport aux systèmes qui apprennent simultanément la transformation et le module de séparation. La méthodologie proposée est suffisamment générale pour être appliquée à une large classe de systèmes de séparation en boucle complète basés sur les réseaux de neurones.