HyperAIHyperAI

Command Palette

Search for a command to run...

vq-wav2vec: Selbstüberwachtes Lernen diskreter Sprachdarstellungen

Alexei Baevski Steffen Schneider Michael Auli

Zusammenfassung

Wir stellen vq-wav2vec vor, um diskrete Darstellungen von Audiosegmenten durch eine selbstüberwachte Kontextvorhersageaufgabe im Stil von wav2vec zu lernen. Der Algorithmus verwendet entweder eine Gumbel-Softmax-Approximation oder Online-K-Means-Clustering, um die dichten Darstellungen zu quantisieren. Die Diskretisierung ermöglicht die direkte Anwendung von Algorithmen aus der NLP-Community, die diskrete Eingaben erfordern. Experimente zeigen, dass die BERT-Vortrainierung eine neue State-of-the-Art-Leistung bei der Phonemklassifizierung auf TIMIT und der Spracherkennung auf WSJ erreicht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp