Zur Grenze der englischen Konversations-Sprechverarbeitung

In unseren früheren Arbeiten haben wir gezeigt, dass ein Modell mit einem einzigen Aufmerksamkeitskopf in der sequenzbasierten Spracherkennung für konversationelle Sprache den aktuellen Stand der Technik erreichen kann. In dieser Arbeit verbessern wir die Ergebnisse sowohl für Switchboard 300 als auch für Switchboard 2000 weiter. Durch die Verwendung eines verbesserten Optimierers, Sprecher-Vektor-Embeddings und alternativer Sprachrepräsentationen reduzieren wir die Erkennungsfehler unseres LSTM-Systems auf Switchboard-300 um 4 % relativ. Die Kompensation des Decoder-Modells durch den Wahrscheinlichkeitsverhältnisansatz ermöglicht eine effizientere Integration eines externen Sprachmodells, und wir berichten WER-Werte von 5,9 % und 11,5 % für die SWB- und CHM-Teile von Hub5'00 mit sehr einfachen LSTM-Modellen. Unsere Studie betrachtet zudem das kürzlich vorgeschlagene Conformer-Modell sowie fortschrittlichere selbstaufmerksamkeitbasierte Sprachmodelle. Gesamtgesehen zeigt der Conformer eine ähnliche Leistung wie das LSTM; dennoch erreicht ihre Kombination und das Decoding mit einem verbesserten Sprachmodell einen neuen Rekord auf Switchboard-300, nämlich WER-Werte von 5,0 % und 10,0 % für SWB und CHM. Unsere Ergebnisse werden auch bei Switchboard-2000 bestätigt, wobei ein neuer Stand der Technik gemeldet wird, der praktisch die Grenzen des Benchmarks erreicht.