wav2vec: Unüberwachtes Vortraining für Spracherkennung

Wir untersuchen das unüberwachte Vor-Training für die Spracherkennung durch das Lernen von Repräsentationen roher Audiodaten. wav2vec wird auf großen Mengen an nicht beschrifteten Audiodaten trainiert, und die resultierenden Repräsentationen werden anschließend verwendet, um das Training akustischer Modelle zu verbessern. Wir führen ein Vor-Training eines einfachen mehrschichtigen Faltungsneuralnetzes durch, das mittels einer Rauschkontrastbasierten binären Klassifizierungsaufgabe optimiert wird. Unsere Experimente am Wall Street Journal-Korpus (WSJ) reduzieren den Wortfehleranteil (WER) eines starken zeichenbasierten Log-Mel-Filterbanks-Baselines bei Verfügbarkeit nur weniger Stunden transkribierter Daten um bis zu 36 %. Unser Ansatz erreicht einen WER von 2,43 % im nov92-Testset. Dies übertrifft Deep Speech 2, das beste in der Literatur beschriebene zeichenbasierte System, während gleichzeitig zwei Größenordnungen weniger beschriftete Trainingsdaten verwendet werden.