HyperAIHyperAI
vor 2 Monaten

Das IBM-Telefon-Sprecherkennungssystem für konversationelles Englisch aus dem Jahr 2015

George Saon; Hong-Kwang J. Kuo; Steven Rennie; Michael Picheny
Das IBM-Telefon-Sprecherkennungssystem für konversationelles Englisch aus dem Jahr 2015
Abstract

Wir beschreiben die neuesten Verbesserungen des IBM-Systems zur erkennung von konversationsnahem Telefon-Sprechsprache auf Englisch. Einige der als nützlich erachteten Techniken sind: Maxout-Netze mit abgeschalteten Dropout-Raten; Netze mit einer sehr großen Anzahl von Ausgängen, die auf 2000 Stunden Daten trainiert wurden; gemeinsames Modellieren teilweise entfalteter rekurrenter Neuronaler Netze und Faltungsnetze durch Kombination der Flaschenhals- und Ausgabeschichten und erneutes Training des daraus resultierenden Modells; sowie schließlich eine fortschrittliche Rescoring von Sprachmodellen mit exponentiellen und neuronalen Netzwerken (neural network LMs). Diese Techniken führen zu einem Wortsfehlerrate von 8,0 % im Switchboard-Teil des Hub5-2000-Evaluierungstests, was 23 % besser ist als unser bisher bestveröffentlichtes Ergebnis.