HyperAIHyperAI
vor 2 Monaten

Jasper: Ein End-to-End Faltungsneuronales Akustisches Modell

Jason Li; Vitaly Lavrukhin; Boris Ginsburg; Ryan Leary; Oleksii Kuchaiev; Jonathan M. Cohen; Huyen Nguyen; Ravi Teja Gadde
Jasper: Ein End-to-End Faltungsneuronales Akustisches Modell
Abstract

In dieser Arbeit berichten wir über standesübliche Ergebnisse auf LibriSpeech unter Verwendung von end-to-end Spracherkennungsmodellen ohne externe Trainingsdaten. Unser Modell, Jasper, verwendet ausschließlich eindimensionale Faltungen (1D convolutions), Batch-Normalisierung, ReLU, Dropout und Residualverbindungen. Um das Training zu verbessern, führen wir zudem einen neuen schichtweisen Optimierer namens NovoGrad ein. Durch Experimente zeigen wir, dass die vorgeschlagene tiefere Architektur genauso gut oder besser als komplexere Optionen performt. Unsere tiefste Jasper-Variante verwendet 54 Faltungsschichten. Mit dieser Architektur erreichen wir eine Wortfehlerquote (WER) von 2,95 % unter Verwendung eines Strahlensuchdecoders mit einem externen neuronalen Sprachmodell und eine WER von 3,86 % unter Verwendung eines gierigen Decoders auf dem Testset „test-clean“ von LibriSpeech. Wir melden auch wettbewerbsfähige Ergebnisse auf den Datensätzen zur Bewertung von Konversationsdaten des Wall Street Journal und des Hub5'00.