HyperAIHyperAI
vor 2 Monaten

Spracherkennung mit tiefen rekurrenten neuronalen Netzen

Alex Graves; Abdel-rahman Mohamed; Geoffrey Hinton
Spracherkennung mit tiefen rekurrenten neuronalen Netzen
Abstract

Rekurrente Neuronale Netze (RNNs) sind ein leistungsfähiges Modell für sequenzielle Daten. Trainingsmethoden von Anfang bis Ende, wie die Connectionistische Temporale Klassifikation (Connectionist Temporal Classification), ermöglichen es, RNNs für sequenzbasierte Klassifizierungsprobleme zu trainieren, bei denen die Eingabe-Ausgabe-Zuordnung unbekannt ist. Die Kombination dieser Methoden mit der Architektur des Long Short-Term Memory (LSTM)-RNNs hat sich besonders ergiebig erwiesen und führt zu Stand-der-Technik-Ergebnissen in der Erkennung von kursiver Handschrift. Dennoch waren die Leistungen von RNNs in der Spracherkennung bisher enttäuschend, wobei tiefere Feedforward-Netze bessere Ergebnisse erzielt haben. In dieser Arbeit werden \emph{tiefe rekurrente neuronale Netze} untersucht, die die mehrstufigen Darstellungen, die sich in tiefen Netzen als effektiv erwiesen haben, mit der flexiblen Nutzung langer Kontextinformationen vereinen, die RNNs befähigen. Bei geeigneter Regularisierung und anwendungsorientiertem Training erreichen tiefe LSTM-RNNs einen Testdatensatz-Fehler von 17,7 % beim TIMIT-Phonem-Erkennungs-Benchmark, was nach unserem Wissen das beste jemals aufgezeichnete Ergebnis ist.