Conv-TasNet : Dépasser le masquage idéal de la magnitude temporelle-fréquentielle pour la séparation vocale

Les méthodes de séparation de la parole mono-canal et indépendantes des locuteurs ont récemment connu d'importants progrès. Cependant, la précision, le retard (latency) et le coût computationnel de ces méthodes restent insuffisants. La majorité des méthodes précédentes ont formulé le problème de séparation à travers la représentation temps-fréquence du signal mixte, ce qui présente plusieurs inconvénients, notamment la dissociation de la phase et de l'amplitude du signal, la sous-optimalité de la représentation temps-fréquence pour la séparation de la parole, et le long retard dans le calcul des spectrogrammes. Pour remédier à ces lacunes, nous proposons un réseau de séparation audio entièrement convolutif dans le domaine temporel (Conv-TasNet), un cadre d'apprentissage profond pour une séparation de parole end-to-end dans le domaine temporel. Conv-TasNet utilise un encodeur linéaire pour générer une représentation de l'onde sonore optimisée pour la séparation des locuteurs individuels. La séparation des locuteurs est réalisée en appliquant un ensemble de fonctions de pondération (masques) à la sortie de l'encodeur. Les représentations modifiées de l'encodeur sont ensuite inversées en ondes sonores grâce à un décodeur linéaire. Les masques sont trouvés en utilisant un réseau convolutif temporel (TCN) composé d'une pile de blocs convolutifs dilatés 1D, ce qui permet au réseau de modéliser les dépendances à long terme du signal vocal tout en maintenant une taille de modèle réduite. Le système Conv-TasNet proposé surpasse considérablement les méthodes précédentes basées sur le masquage temps-fréquence pour la séparation des mélanges avec deux ou trois locuteurs. De plus, Conv-TasNet dépasse plusieurs masques idéaux d'amplitude temps-fréquence pour la séparation bilocuteur évaluée par des mesures objectives de distorsion et par une évaluation subjective qualitative par des auditeurs humains. Enfin, Conv-TasNet dispose d'une taille de modèle beaucoup plus petite et d'un retard minimal plus court, ce qui en fait une solution appropriée pour les applications de séparation vocale hors ligne et en temps réel.