Die Erreichung der menschlichen Parität bei der Konversations-Spracherkennung

Die Konversationsbasierte Spracherkennung dient seit der Veröffentlichung des Switchboard-Korpus in den 1990er Jahren als Leitprojekt für Aufgaben der Spracherkennung. In dieser Arbeit messen wir die Fehlerquote von Menschen am weit verbreiteten NIST 2000 Testdatensatz und stellen fest, dass unser neuestes automatisches System die menschliche Parität erreicht hat. Die Fehlerquote professioneller Transkribierer beträgt 5,9 % für den Switchboard-Teil der Daten, bei dem neu bekannt gewordene Personen ein zugewiesenes Thema diskutieren, und 11,3 % für den CallHome-Teil, bei dem Freunde und Familienmitglieder offene Gespräche führen. In beiden Fällen legt unser automatisches System einen neuen Stand der Technik fest und übertrifft die menschliche Referenz, wobei es Fehlerquoten von 5,8 % und 11,0 % erreicht. Der Schlüssel zur Leistung unseres Systems liegt in der Verwendung verschiedener konvolutiver und LSTM-basierter Akustikmodellarchitekturen, kombiniert mit einer neuartigen räumlichen Glättungsmethode und einem akustischen Training ohne Gitter (lattice-free MMI), mehrerer rekurrenter neuronaler Netzwerke zur Sprachmodellierung sowie einer systematischen Nutzung von Systemkombinationen.