Command Palette
Search for a command to run...
W2v-BERT : Combinaison de l'apprentissage contrastif et du modèle de langage masqué pour un pré-entraînement auto-supervisé en parole
W2v-BERT : Combinaison de l'apprentissage contrastif et du modèle de langage masqué pour un pré-entraînement auto-supervisé en parole
Yu-An Chung Yu Zhang Wei Han Chung-Cheng Chiu James Qin Ruoming Pang Yonghui Wu
Résumé
Motivés par le succès du modèle de langage masqué (masked language modeling, MLM) dans l’entraînement préalable des modèles de traitement du langage naturel, nous proposons w2v-BERT, un cadre qui exploite le MLM pour l’apprentissage auto-supervisé de représentations vocales. w2v-BERT est une architecture combinant l’apprentissage contrastif et le MLM : le premier entraîne le modèle à discrétiser les signaux vocaux continus d’entrée en un ensemble fini de tokens vocaux discriminants, tandis que le second permet au modèle d’apprendre des représentations contextuelles à partir de la prédiction des tokens masqués à partir des tokens discrétisés. Contrairement aux cadres d’entraînement préalable basés sur le MLM existants, tels que HuBERT, qui reposent sur un processus itératif de ré-clusterisation et de ré-entraînement, ou vq-wav2vec, qui concatène deux modules entraînés séparément, w2v-BERT peut être optimisé de manière end-to-end en résolvant simultanément les deux tâches auto-supervisées (la tâche contrastive et le MLM). Nos expériences montrent que w2v-BERT atteint des résultats compétitifs par rapport aux modèles pré-entraînés de pointe actuels sur les benchmarks LibriSpeech, en utilisant le corpus Libri-Light60k comme données non étiquetées. En particulier, comparé à des modèles publiés tels que conformer-based wav2vec2.0 et HuBERT, notre modèle réduit de 5 % à 10 % le taux d’erreur de parole (WER) sur les sous-ensembles test-clean et test-other. Lorsqu’il est appliqué au jeu de données du trafic de recherche vocale de Google, w2v-BERT surpasse notre modèle interne basé sur conformer wav2vec~2.0 de plus de 30 % en termes relatifs.