HyperAIHyperAI
vor 3 Monaten

QuartzNet: Tiefe automatische Spracherkennung mit 1D zeit-kanal-separierbaren Faltungen

Samuel Kriman, Stanislav Beliaev, Boris Ginsburg, Jocelyn Huang, Oleksii Kuchaiev, Vitaly Lavrukhin, Ryan Leary, Jason Li, Yang Zhang
QuartzNet: Tiefe automatische Spracherkennung mit 1D zeit-kanal-separierbaren Faltungen
Abstract

Wir schlagen ein neues end-to-end-neurales akustisches Modell für die automatische Spracherkennung vor. Das Modell besteht aus mehreren Blöcken, die durch Residual-Verbindungen miteinander verbunden sind. Jeder Block setzt sich aus einem oder mehreren Modulen zusammen, die 1D-zeitkanal-separable Faltungsoperationen, Batch-Normalisierung und ReLU-Schichten enthalten. Das vorgeschlagene Netzwerk wird mit CTC-Verlust trainiert. Das Modell erreicht nahezu state-of-the-art-Genauigkeit auf den Datensätzen LibriSpeech und Wall Street Journal, während es gleichzeitig weniger Parameter als alle konkurrierenden Modelle besitzt. Zudem zeigen wir, dass das Modell effektiv auf neuen Datensätzen fine-tuned werden kann.