HyperAIHyperAI
vor 2 Monaten

Deep Speech: Die Skalierung von end-to-end Spracherkennung

Awni Hannun; Carl Case; Jared Casper; Bryan Catanzaro; Greg Diamos; Erich Elsen; Ryan Prenger; Sanjeev Satheesh; Shubho Sengupta; Adam Coates; Andrew Y. Ng
Deep Speech: Die Skalierung von end-to-end Spracherkennung
Abstract

Wir präsentieren ein neuestandschaftliches Spracherkennungssystem, das mithilfe von end-to-end tiefem Lernen entwickelt wurde. Unser Architektur ist erheblich einfacher als traditionelle Sprachsysteme, die auf mühsam gestalteten Verarbeitungspipelines basieren; diese traditionellen Systeme neigen außerdem dazu, in geräuscharmen Umgebungen schlecht abzuschneiden. Im Gegensatz dazu benötigt unser System keine manuell entworfenen Komponenten zur Modellierung von Hintergrundgeräuschen, Echo oder Sprechervariationen, sondern lernt stattdessen direkt eine Funktion, die gegenüber solchen Effekten robust ist. Wir benötigen weder ein Phonemdiktionsbuch noch den Begriff eines „Phonems“. Wesentlich für unseren Ansatz ist ein gut optimiertes RNN-Trainingsystem, das mehrere GPUs verwendet, sowie eine Reihe neuer Daten-Synthesetechniken, die es uns ermöglichen, effizient eine große Menge an diversen Daten für das Training zu erhalten. Unser System, genannt Deep Speech, übertrifft früher veröffentlichte Ergebnisse im weitgehend untersuchten Switchboard Hub5'00 und erreicht einen Fehler von 16,0 % im gesamten Testset. Deep Speech bewältigt auch herausfordernde geräuschreiche Umgebungen besser als weit verbreitete, standesübliche kommerzielle Sprachsysteme.

Deep Speech: Die Skalierung von end-to-end Spracherkennung | Neueste Forschungsarbeiten | HyperAI