HyperAIHyperAI
vor 2 Monaten

Das IBM-Telefonsprecherkennungssystem für konversationelles Englisch aus dem Jahr 2016

George Saon; Tom Sercu; Steven Rennie; Hong-Kwang J. Kuo
Das IBM-Telefonsprecherkennungssystem für konversationelles Englisch aus dem Jahr 2016
Abstract

Wir beschreiben eine Sammlung von Techniken zur akustischen und sprachlichen Modellierung, die den Wortschreibfehler (word error rate) unseres englischen konversationsbasierten Telefon-Systems für die automatische Spracherkennung (LVCSR) auf dem Switchboard-Teil des Hub5 2000 Evaluations-Datensatzes auf einen Rekordwert von 6,6 % senkten. Auf der akustischen Seite verwenden wir eine Score-Fusion von drei starken Modellen: rekurrenten Netzen mit Maxout-Aktivierungen, sehr tiefen Faltungsnetzen mit 3x3-Kernen und bidirektionale Long Short-Term Memory-Netze, die auf FMLLR- und i-Vektor-Features operieren. Auf der Seite der sprachlichen Modellierung nutzen wir ein aktualisiertes Modell „M“ sowie hierarchische neuronale Netzwerk-Sprachmodelle (hierarchical neural network LMs).