Das IBM-Telefonsprecherkennungssystem für konversationelles Englisch aus dem Jahr 2016

Wir beschreiben eine Sammlung von Techniken zur akustischen und sprachlichen Modellierung, die den Wortschreibfehler (word error rate) unseres englischen konversationsbasierten Telefon-Systems für die automatische Spracherkennung (LVCSR) auf dem Switchboard-Teil des Hub5 2000 Evaluations-Datensatzes auf einen Rekordwert von 6,6 % senkten. Auf der akustischen Seite verwenden wir eine Score-Fusion von drei starken Modellen: rekurrenten Netzen mit Maxout-Aktivierungen, sehr tiefen Faltungsnetzen mit 3x3-Kernen und bidirektionale Long Short-Term Memory-Netze, die auf FMLLR- und i-Vektor-Features operieren. Auf der Seite der sprachlichen Modellierung nutzen wir ein aktualisiertes Modell „M“ sowie hierarchische neuronale Netzwerk-Sprachmodelle (hierarchical neural network LMs).