HyperAIHyperAI

Command Palette

Search for a command to run...

wav2vec: Unüberwachtes Vortraining für Spracherkennung

Steffen Schneider Alexei Baevski Ronan Collobert Michael Auli

Zusammenfassung

Wir untersuchen das unüberwachte Vor-Training für die Spracherkennung durch das Lernen von Repräsentationen roher Audiodaten. wav2vec wird auf großen Mengen an nicht beschrifteten Audiodaten trainiert, und die resultierenden Repräsentationen werden anschließend verwendet, um das Training akustischer Modelle zu verbessern. Wir führen ein Vor-Training eines einfachen mehrschichtigen Faltungsneuralnetzes durch, das mittels einer Rauschkontrastbasierten binären Klassifizierungsaufgabe optimiert wird. Unsere Experimente am Wall Street Journal-Korpus (WSJ) reduzieren den Wortfehleranteil (WER) eines starken zeichenbasierten Log-Mel-Filterbanks-Baselines bei Verfügbarkeit nur weniger Stunden transkribierter Daten um bis zu 36 %. Unser Ansatz erreicht einen WER von 2,43 % im nov92-Testset. Dies übertrifft Deep Speech 2, das beste in der Literatur beschriebene zeichenbasierte System, während gleichzeitig zwei Größenordnungen weniger beschriftete Trainingsdaten verwendet werden.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
wav2vec: Unüberwachtes Vortraining für Spracherkennung | Paper | HyperAI