il y a 2 mois

wav2vec : Pré-entraînement non supervisé pour la reconnaissance de la parole

Steffen Schneider; Alexei Baevski; Ronan Collobert; Michael Auli

Résumé

Nous explorons l'entraînement non supervisé préalable pour la reconnaissance vocale en apprenant des représentations d'audio brut. wav2vec est entraîné sur de grandes quantités de données audio non étiquetées, et les représentations obtenues sont ensuite utilisées pour améliorer l'entraînement du modèle acoustique. Nous effectuons un entraînement préalable d'un réseau neuronal convolutif à plusieurs couches simple, optimisé par une tâche de classification binaire par contraste de bruit. Nos expériences sur le corpus WSJ réduisent le taux d'erreur de reconnaissance (WER) d'une ligne de base robuste basée sur les caractères et les filtres log-mel jusqu'à 36 % lorsque seulement quelques heures de données transcrites sont disponibles. Notre approche atteint un WER de 2,43 % sur l'ensemble de test nov92. Cela surpassе le système Deep Speech 2, le meilleur système basé sur les caractères rapporté dans la littérature, tout en utilisant deux ordres de grandeur moins de données d'entraînement étiquetées.