HyperAIHyperAI

Command Palette

Search for a command to run...

Multi-Decoder DPRNN : Comptage et séparation de sources à haute précision

Junzhe Zhu Raymond Yeh Mark Hasegawa-Johnson

Résumé

Nous proposons une approche entraînable end-to-end pour la séparation de paroles à canal unique, dans le cas où le nombre de locuteurs est inconnu. Notre méthode étend le modèle de base MulCat pour la séparation de sources en ajoutant des têtes de sortie supplémentaires : une « tête de comptage » permettant d’estimer le nombre de locuteurs, et des « têtes décodeurs » pour reconstruire les signaux originaux. En complément du modèle, nous proposons également une métrique pour évaluer la séparation de sources lorsque le nombre de locuteurs varie. Plus précisément, nous résolvons le problème de l’évaluation de la qualité lorsque le nombre de locuteurs réels (étiquette de référence) diffère de celui prédit par le modèle. Nous évaluons notre approche sur le jeu de données WSJ0-mix, comprenant des mélanges jusqu’à cinq locuteurs. Nos résultats montrent que notre méthode surpasser l’état de l’art en termes de prédiction du nombre de locuteurs, tout en restant compétitive en termes de qualité des signaux reconstruits.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp