L'auto-entraînement et l'entraînement préalable sont complémentaires pour la reconnaissance vocale

L’auto-entraînement et l’entraînement préalable non supervisé se sont imposés comme des approches efficaces pour améliorer les systèmes de reconnaissance vocale à l’aide de données non étiquetées. Toutefois, il n’est pas clair si ces deux méthodes apprennent des motifs similaires ou si elles peuvent être combinées de manière efficace. Dans cet article, nous démontrons que l’étiquetage par pseudo-étiquettes et l’entraînement préalable avec wav2vec 2.0 sont complémentaires dans diverses configurations de données étiquetées. En utilisant uniquement 10 minutes de données étiquetées provenant de Libri-light ainsi que 53 000 heures de données non étiquetées issues de LibriVox, nous atteignons des taux d’erreur de mot (WER) de 3,0 % / 5,2 % sur les ensembles de test propre et autre de LibriSpeech — des résultats comparables aux meilleurs systèmes publiés, entraînés il y a un an uniquement sur 960 heures de données étiquetées. L’entraînement sur l’ensemble complet des données étiquetées de LibriSpeech permet d’obtenir des WER de 1,5 % / 3,1 %.