Tiefe rekurrente Neuronale Netze für akustische Modellierung

Wir präsentieren ein neues tiefes rekurrentes Neuronales Netzwerk (RNN)-Modell für die akustische Modellierung im automatischen Spracherkennungssystem (ASR). Unser Beitrag wird als TC-DNN-BLSTM-DNN-Modell bezeichnet. Dieses Modell kombiniert ein tiefes neuronales Netzwerk (DNN) mit Zeitkonvolution (TC), gefolgt von einem bidirektionalen Langzeit-Short-Term-Memory-Netzwerk (BLSTM) und einem abschließenden DNN. Das erste DNN dient als Merkmalsprozessor für unser Modell, der BLSTM generiert anschließend einen Kontext aus dem sequenziellen akustischen Signal, und das finale DNN modelliert die posterioren Wahrscheinlichkeiten der akustischen Zustände. Wir erreichen eine Wortfehlerquote (WER) von 3,47 % bei der Wall Street Journal (WSJ) eval92-Aufgabe, was einem relativen Verbesserungsvon mehr als 8 % gegenüber den Baseline-DNN-Modellen entspricht.