HyperAIHyperAI

Command Palette

Search for a command to run...

Stabilisation de l’affectation des étiquettes pour la séparation de parole par pré-entraînement auto-supervisé

Sung-Feng Huang Shun-Po Chuang Da-Rong Liu Yi-Chen Chen Gene-Ping Yang Hung-yi Lee

Résumé

La séparation vocale a été largement développée, notamment grâce à l’approche très réussie du permutation invariant training (PIT), bien que le phénomène fréquent d’échange d’affectation des étiquettes durant l’entraînement du PIT constitue encore un problème lorsque l’on cherche à améliorer la vitesse de convergence et les performances atteignables. Dans cet article, nous proposons d’effectuer un pré-entraînement auto-supervisé afin de stabiliser l’affectation des étiquettes lors de l’entraînement d’un modèle de séparation vocale. Des expériences menées sur plusieurs approches auto-supervisées, plusieurs modèles classiques de séparation vocale ainsi que deux jeux de données différents ont montré qu’une amélioration significative peut être obtenue si une approche auto-supervisée appropriée est choisie.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp