HyperAIHyperAI
il y a 15 jours

Stabilisation de l’affectation des étiquettes pour la séparation de parole par pré-entraînement auto-supervisé

Sung-Feng Huang, Shun-Po Chuang, Da-Rong Liu, Yi-Chen Chen, Gene-Ping Yang, Hung-yi Lee
Stabilisation de l’affectation des étiquettes pour la séparation de parole par pré-entraînement auto-supervisé
Résumé

La séparation vocale a été largement développée, notamment grâce à l’approche très réussie du permutation invariant training (PIT), bien que le phénomène fréquent d’échange d’affectation des étiquettes durant l’entraînement du PIT constitue encore un problème lorsque l’on cherche à améliorer la vitesse de convergence et les performances atteignables. Dans cet article, nous proposons d’effectuer un pré-entraînement auto-supervisé afin de stabiliser l’affectation des étiquettes lors de l’entraînement d’un modèle de séparation vocale. Des expériences menées sur plusieurs approches auto-supervisées, plusieurs modèles classiques de séparation vocale ainsi que deux jeux de données différents ont montré qu’une amélioration significative peut être obtenue si une approche auto-supervisée appropriée est choisie.

Stabilisation de l’affectation des étiquettes pour la séparation de parole par pré-entraînement auto-supervisé | Articles de recherche récents | HyperAI