HyperAIHyperAI
il y a 15 jours

Multi-Decoder DPRNN : Comptage et séparation de sources à haute précision

Junzhe Zhu, Raymond Yeh, Mark Hasegawa-Johnson
Multi-Decoder DPRNN : Comptage et séparation de sources à haute précision
Résumé

Nous proposons une approche entraînable end-to-end pour la séparation de paroles à canal unique, dans le cas où le nombre de locuteurs est inconnu. Notre méthode étend le modèle de base MulCat pour la séparation de sources en ajoutant des têtes de sortie supplémentaires : une « tête de comptage » permettant d’estimer le nombre de locuteurs, et des « têtes décodeurs » pour reconstruire les signaux originaux. En complément du modèle, nous proposons également une métrique pour évaluer la séparation de sources lorsque le nombre de locuteurs varie. Plus précisément, nous résolvons le problème de l’évaluation de la qualité lorsque le nombre de locuteurs réels (étiquette de référence) diffère de celui prédit par le modèle. Nous évaluons notre approche sur le jeu de données WSJ0-mix, comprenant des mélanges jusqu’à cinq locuteurs. Nos résultats montrent que notre méthode surpasser l’état de l’art en termes de prédiction du nombre de locuteurs, tout en restant compétitive en termes de qualité des signaux reconstruits.

Multi-Decoder DPRNN : Comptage et séparation de sources à haute précision | Articles de recherche récents | HyperAI