vor 17 Tagen
vq-wav2vec: Selbstüberwachtes Lernen diskreter Sprachdarstellungen
Alexei Baevski, Steffen Schneider, Michael Auli

Abstract
Wir stellen vq-wav2vec vor, um diskrete Darstellungen von Audiosegmenten durch eine selbstüberwachte Kontextvorhersageaufgabe im Stil von wav2vec zu lernen. Der Algorithmus verwendet entweder eine Gumbel-Softmax-Approximation oder Online-K-Means-Clustering, um die dichten Darstellungen zu quantisieren. Die Diskretisierung ermöglicht die direkte Anwendung von Algorithmen aus der NLP-Community, die diskrete Eingaben erfordern. Experimente zeigen, dass die BERT-Vortrainierung eine neue State-of-the-Art-Leistung bei der Phonemklassifizierung auf TIMIT und der Spracherkennung auf WSJ erreicht.