W2v-BERT : Combinaison de l'apprentissage contrastif et du modèle de langage masqué pour un pré-entraînement auto-supervisé en parole

Motivés par le succès du modèle de langage masqué (masked language modeling, MLM) dans l’entraînement préalable des modèles de traitement du langage naturel, nous proposons w2v-BERT, un cadre qui exploite le MLM pour l’apprentissage auto-supervisé de représentations vocales. w2v-BERT est une architecture combinant l’apprentissage contrastif et le MLM : le premier entraîne le modèle à discrétiser les signaux vocaux continus d’entrée en un ensemble fini de tokens vocaux discriminants, tandis que le second permet au modèle d’apprendre des représentations contextuelles à partir de la prédiction des tokens masqués à partir des tokens discrétisés. Contrairement aux cadres d’entraînement préalable basés sur le MLM existants, tels que HuBERT, qui reposent sur un processus itératif de ré-clusterisation et de ré-entraînement, ou vq-wav2vec, qui concatène deux modules entraînés séparément, w2v-BERT peut être optimisé de manière end-to-end en résolvant simultanément les deux tâches auto-supervisées (la tâche contrastive et le MLM). Nos expériences montrent que w2v-BERT atteint des résultats compétitifs par rapport aux modèles pré-entraînés de pointe actuels sur les benchmarks LibriSpeech, en utilisant le corpus Libri-Light~60k comme données non étiquetées. En particulier, comparé à des modèles publiés tels que conformer-based wav2vec~2.0 et HuBERT, notre modèle réduit de 5 % à 10 % le taux d’erreur de parole (WER) sur les sous-ensembles test-clean et test-other. Lorsqu’il est appliqué au jeu de données du trafic de recherche vocale de Google, w2v-BERT surpasse notre modèle interne basé sur conformer wav2vec~2.0 de plus de 30 % en termes relatifs.