HyperAIHyperAI

Command Palette

Search for a command to run...

QuartzNet: Tiefe automatische Spracherkennung mit 1D zeit-kanal-separierbaren Faltungen

Samuel Kriman Stanislav Beliaev Boris Ginsburg Jocelyn Huang Oleksii Kuchaiev Vitaly Lavrukhin Ryan Leary Jason Li Yang Zhang

Zusammenfassung

Wir schlagen ein neues end-to-end-neurales akustisches Modell für die automatische Spracherkennung vor. Das Modell besteht aus mehreren Blöcken, die durch Residual-Verbindungen miteinander verbunden sind. Jeder Block setzt sich aus einem oder mehreren Modulen zusammen, die 1D-zeitkanal-separable Faltungsoperationen, Batch-Normalisierung und ReLU-Schichten enthalten. Das vorgeschlagene Netzwerk wird mit CTC-Verlust trainiert. Das Modell erreicht nahezu state-of-the-art-Genauigkeit auf den Datensätzen LibriSpeech und Wall Street Journal, während es gleichzeitig weniger Parameter als alle konkurrierenden Modelle besitzt. Zudem zeigen wir, dass das Modell effektiv auf neuen Datensätzen fine-tuned werden kann.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp