HyperAIHyperAI
il y a 17 jours

HuBERT : Apprentissage non supervisé de représentations vocales par prédiction masquée des unités cachées

Wei-Ning Hsu, Benjamin Bolte, Yao-Hung Hubert Tsai, Kushal Lakhotia, Ruslan Salakhutdinov, Abdelrahman Mohamed
HuBERT : Apprentissage non supervisé de représentations vocales par prédiction masquée des unités cachées
Résumé

Les approches auto-supervisées pour l'apprentissage des représentations vocales font face à trois problèmes spécifiques : (1) chaque énoncé d'entrée contient plusieurs unités sonores, (2) aucune lexique des unités sonores d'entrée n'est disponible pendant la phase de pré-entraînement, et (3) les unités sonores présentent des longueurs variables sans segmentation explicite. Pour surmonter ces trois défis, nous proposons une approche appelée Hidden-Unit BERT (HuBERT) pour l'apprentissage auto-supervisé des représentations vocales, qui utilise une étape de regroupement hors ligne afin de fournir des étiquettes cibles alignées pour une fonction de perte de prédiction inspirée du BERT. Un élément clé de notre méthode consiste à appliquer la fonction de perte de prédiction uniquement sur les régions masquées, ce qui contraint le modèle à apprendre un modèle acoustique et linguistique combiné à partir d'entrées continues. HuBERT repose principalement sur la cohérence de l'étape de regroupement non supervisé, plutôt que sur la qualité intrinsèque des étiquettes de cluster attribuées. En partant d'un modèle enseignant simple basé sur k-means avec 100 clusters, et en utilisant deux itérations de regroupement, le modèle HuBERT atteint ou dépasse les performances de l'état de l'art de wav2vec 2.0 sur les benchmarks Librispeech (960h) et Libri-light (60 000h), pour des sous-ensembles de fin-tuning de 10 minutes, 1 heure, 10 heures, 100 heures et 960 heures. En utilisant un modèle de 1 milliard de paramètres, HuBERT obtient une réduction relative de 19 % et 13 % du taux d'erreur de parole (WER) sur les sous-ensembles d'évaluation plus exigeants, respectivement dev-other et test-other.

HuBERT : Apprentissage non supervisé de représentations vocales par prédiction masquée des unités cachées | Articles de recherche récents | HyperAI