Englische Konversations telephone Spracherkennung durch Menschen und Maschinen

Einer der schwierigsten Aufgaben im Bereich der Spracherkennung ist die genaue Erkennung von Mensch-Mensch-Kommunikation. Die Fortschritte im tiefen Lernen in den letzten Jahren haben zu erheblichen Verbesserungen der Spracherkennung am repräsentativen Switchboard-Gesprächskorpus geführt. Vor wenigen Jahren noch bei 14 % liegende Wortsfehlerquoten sind auf 8,0 %, dann 6,6 % und zuletzt auf 5,8 % gesunken und gelten nun als in greifbarer Nähe des menschlichen Leistungsvermögens. Dies wirft zwei Fragen auf – was ist das menschliche Leistungsniveau, und wie weit können wir die Sprecherkennungsfehlerquoten noch senken? Eine kürzlich veröffentlichte Arbeit von Microsoft deutet darauf hin, dass wir bereits das menschliche Leistungsniveau erreicht haben. Um diese Aussage zu überprüfen, führten wir eine unabhängige Reihe von menschlichen Leistungsmessungen an zwei Gesprächsaufgaben durch und stellten fest, dass das menschliche Leistungsniveau möglicherweise erheblich besser ist als bisher berichtet wurde. Dies stellt die Gemeinschaft vor ein wesentlich anspruchsvolleres Ziel. Wir berichten auch über unsere eigenen Bemühungen in diesem Bereich und präsentieren eine Reihe von akustischen und sprachlichen Modellierungstechniken, die den Wortsfehlerquoten unseres englischen LVCSR-Systems für konversationelle Telefonate auf dem Niveau von 5,5 %/10,3 % auf den Switchboard/CallHome-Teilmenge der Hub5 2000-Evaluierung reduzierten – was zum Zeitpunkt der Abfassung dieses Artikels ein neuer Meilenstein darstellt (wenn auch nicht auf dem Niveau dessen, was wir als menschliches Leistungsniveau messen!).Auf der akustischen Seite verwenden wir eine Score-Fusion von drei Modellen: einem LSTM mit mehreren Merkmalsinputs, einem zweiten LSTM, das mit sprecher-antagonistischem Multi-Task-Lernen trainiert wurde, und einem dritten Residualnetz (ResNet) mit 25 Faltungsschichten und zeitlich verdünnten Faltungen. Auf der sprachlichen Modellierungsebene nutzen wir Wort- und Zeichen-LSTMs sowie faltungsbasierte WaveNet-artige Sprachmodelle.