HyperAIHyperAI

Command Palette

Search for a command to run...

Jasper: Ein End-to-End Faltungsneuronales Akustisches Modell

Jason Li Vitaly Lavrukhin Boris Ginsburg Ryan Leary Oleksii Kuchaiev Jonathan M. Cohen Huyen Nguyen Ravi Teja Gadde

Zusammenfassung

In dieser Arbeit berichten wir über standesübliche Ergebnisse auf LibriSpeech unter Verwendung von end-to-end Spracherkennungsmodellen ohne externe Trainingsdaten. Unser Modell, Jasper, verwendet ausschließlich eindimensionale Faltungen (1D convolutions), Batch-Normalisierung, ReLU, Dropout und Residualverbindungen. Um das Training zu verbessern, führen wir zudem einen neuen schichtweisen Optimierer namens NovoGrad ein. Durch Experimente zeigen wir, dass die vorgeschlagene tiefere Architektur genauso gut oder besser als komplexere Optionen performt. Unsere tiefste Jasper-Variante verwendet 54 Faltungsschichten. Mit dieser Architektur erreichen wir eine Wortfehlerquote (WER) von 2,95 % unter Verwendung eines Strahlensuchdecoders mit einem externen neuronalen Sprachmodell und eine WER von 3,86 % unter Verwendung eines gierigen Decoders auf dem Testset „test-clean“ von LibriSpeech. Wir melden auch wettbewerbsfähige Ergebnisse auf den Datensätzen zur Bewertung von Konversationsdaten des Wall Street Journal und des Hub5'00.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp