Das Microsoft-Konversations-Spracherkennungssystem von 2016

Wir beschreiben das konversationsbasierte Spracherkennungssystem von Microsoft, in dem wir jüngste Entwicklungen im Bereich der neual-netzwerk-basierten akustischen und sprachlichen Modellierung kombinieren, um den Stand der Technik bei der Switchboard-Erkennungsaufgabe zu verbessern. Inspiriert durch Ensemble-Techniken des maschinellen Lernens nutzt das System eine Vielzahl von Faltungs- und rekurrenten Neuronalen Netzen. I-Vektor-Modellierung und latticefreies MMI-Training (Maximum Mutual Information) führen zu erheblichen Verbesserungen für alle akustischen Modellarchitekturen. Die Rescoring des Sprachmodells mit mehreren vorwärts- und rückwärtslaufenden RNNLMs (Recurrent Neural Network Language Models) sowie die systembasierte Kombination auf Basis von Wortposteriori ergibt eine Steigerung um 20 %. Das beste einzelne System verwendet ein akustisches Modell mit ResNet-Architektur und RNNLM-Rescoring und erreicht einen Wortschreibfehler von 6,9 % bei der NIST 2000 Switchboard-Aufgabe. Das kombinierte System hat einen Fehlerquoten von 6,2 %, was eine Verbesserung gegenüber früher veröffentlichten Ergebnissen bei dieser Benchmark-Aufgabe darstellt.