Self-Training und Pre-Training sind ergänzend für die Spracherkennung

Selbsttraining und unsupervised Pre-Training sind als effektive Ansätze zur Verbesserung von Spracherkennungssystemen unter Verwendung von unbeschrifteten Daten hervorgetreten. Es ist jedoch unklar, ob diese Ansätze ähnliche Muster lernen oder effektiv kombiniert werden können. In diesem Paper zeigen wir, dass Pseudo-Labeling und Pre-Training mit wav2vec 2.0 in einer Vielzahl von Beschriftungsdatensets komplementär sind. Durch die Nutzung lediglich von 10 Minuten beschrifteter Daten aus Libri-light sowie 53.000 Stunden unbeschrifteter Daten aus LibriVox werden WERs von 3,0 %/5,2 % auf den cleanen und anderen Testsets von LibriSpeech erreicht – ein Ergebnis, das die besten bisher veröffentlichten Systeme, die vor einem Jahr lediglich mit 960 Stunden beschrifteter Daten trainiert wurden, in ihrer Leistung inzwischen erreicht oder sogar übertroffen hat. Die Nutzung aller beschrifteten Daten von LibriSpeech führt zu WERs von 1,5 %/3,1 %.