Das IBM-Telefon-Sprecherkennungssystem für konversationelles Englisch aus dem Jahr 2015

Wir beschreiben die neuesten Verbesserungen des IBM-Systems zur erkennung von konversationsnahem Telefon-Sprechsprache auf Englisch. Einige der als nützlich erachteten Techniken sind: Maxout-Netze mit abgeschalteten Dropout-Raten; Netze mit einer sehr großen Anzahl von Ausgängen, die auf 2000 Stunden Daten trainiert wurden; gemeinsames Modellieren teilweise entfalteter rekurrenter Neuronaler Netze und Faltungsnetze durch Kombination der Flaschenhals- und Ausgabeschichten und erneutes Training des daraus resultierenden Modells; sowie schließlich eine fortschrittliche Rescoring von Sprachmodellen mit exponentiellen und neuronalen Netzwerken (neural network LMs). Diese Techniken führen zu einem Wortsfehlerrate von 8,0 % im Switchboard-Teil des Hub5-2000-Evaluierungstests, was 23 % besser ist als unser bisher bestveröffentlichtes Ergebnis.