HyperAIHyperAI

Command Palette

Search for a command to run...

Conv-TasNet : Dépasser le masquage idéal de la magnitude temporelle-fréquentielle pour la séparation vocale

Yi Luo Nima Mesgarani

Résumé

Les méthodes de séparation de la parole mono-canal et indépendantes des locuteurs ont récemment connu d'importants progrès. Cependant, la précision, le retard (latency) et le coût computationnel de ces méthodes restent insuffisants. La majorité des méthodes précédentes ont formulé le problème de séparation à travers la représentation temps-fréquence du signal mixte, ce qui présente plusieurs inconvénients, notamment la dissociation de la phase et de l'amplitude du signal, la sous-optimalité de la représentation temps-fréquence pour la séparation de la parole, et le long retard dans le calcul des spectrogrammes. Pour remédier à ces lacunes, nous proposons un réseau de séparation audio entièrement convolutif dans le domaine temporel (Conv-TasNet), un cadre d'apprentissage profond pour une séparation de parole end-to-end dans le domaine temporel. Conv-TasNet utilise un encodeur linéaire pour générer une représentation de l'onde sonore optimisée pour la séparation des locuteurs individuels. La séparation des locuteurs est réalisée en appliquant un ensemble de fonctions de pondération (masques) à la sortie de l'encodeur. Les représentations modifiées de l'encodeur sont ensuite inversées en ondes sonores grâce à un décodeur linéaire. Les masques sont trouvés en utilisant un réseau convolutif temporel (TCN) composé d'une pile de blocs convolutifs dilatés 1D, ce qui permet au réseau de modéliser les dépendances à long terme du signal vocal tout en maintenant une taille de modèle réduite. Le système Conv-TasNet proposé surpasse considérablement les méthodes précédentes basées sur le masquage temps-fréquence pour la séparation des mélanges avec deux ou trois locuteurs. De plus, Conv-TasNet dépasse plusieurs masques idéaux d'amplitude temps-fréquence pour la séparation bilocuteur évaluée par des mesures objectives de distorsion et par une évaluation subjective qualitative par des auditeurs humains. Enfin, Conv-TasNet dispose d'une taille de modèle beaucoup plus petite et d'un retard minimal plus court, ce qui en fait une solution appropriée pour les applications de séparation vocale hors ligne et en temps réel.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Conv-TasNet : Dépasser le masquage idéal de la magnitude temporelle-fréquentielle pour la séparation vocale | Articles | HyperAI