Segmentale rekurrente Neuronale Netze für die end-to-end Spracherkennung

Wir untersuchen das segmentale rekurrente Neuronale Netzwerk (RNN) für die end-to-end akustische Modellierung. Dieses Modell verbindet das segmentale bedingte Zufallsfeld (Conditional Random Field, CRF) mit einem rekurrenten neuronalen Netzwerk, das zur Merkmalsextraktion verwendet wird. Im Vergleich zu den meisten früheren CRF-basierten akustischen Modellen ist es nicht abhängig von einem externen System zur Bereitstellung von Merkmalen oder Segmentierungsgrenzen. Stattdessen marginalisiert dieses Modell alle möglichen Segmentierungen und die Merkmale werden aus dem RNN extrahiert, das zusammen mit dem segmentalen CRF trainiert wird. Im Wesentlichen ist dieses Modell selbständig und kann end-to-end trainiert werden. In dieser Arbeit diskutieren wir praktische Aspekte des Trainings und der Decodierung sowie die Methode zur Beschleunigung des Trainings im Kontext der Spracherkennung. Wir führten Experimente am TIMIT-Datensatz durch. Bei der ersten Decodierung erreichten wir eine Phonfehlerquote (Phone Error Rate, PER) von 17,3 % – das beste bisher gemeldete Ergebnis unter Verwendung von CRFs, obwohl wir nur ein CRF nullter Ordnung verwendeten und keinen Sprachmodell einsetzten.