TEVR: Verbesserung der Spracherkennung durch Reduktion der Token-Entropie-Varianz

Diese Arbeit stellt TEVR vor, ein Spracherkennungsmodell, das darauf ausgelegt ist, die Variation der Token-Entropie bezüglich des Sprachmodells zu minimieren. Dies nutzt aus, dass, wenn das Sprachmodell ein Token ohnehin zuverlässig und genau vorhersagen kann, das akustische Modell dessen Erkennung nicht mit gleicher Genauigkeit erforderlich ist. Wir trainieren deutsche ASR-Modelle mit 900 Millionen Parametern und zeigen, dass TEVR auf dem Datensatz CommonVoice German eine sehr wettbewerbsfähige Wortfehlerquote von 3,64 % erreicht, was eine relative Reduktion der Wortfehlerquote um 16,89 % gegenüber den bisher besten veröffentlichten Ergebnissen darstellt. Wir hoffen, dass die Veröffentlichung unserer vollständig trainierten Spracherkennungspipeline an die Gemeinschaft zukünftig die Entwicklung von datenschutzfreundlichen Offline-Virtual Assistants ermöglicht.