HyperAI

Abstract

Die Anzahl an frei verfügbaren Systemen für automatische Spracherkennung (ASR) auf Basis neuronalen Netzwerke wächst stetig, wobei gleichzeitig die Zuverlässigkeit der Vorhersagen zunimmt. Die Bewertung geschulter Modelle basiert jedoch typischerweise ausschließlich auf statistischen Metriken wie WER (Word Error Rate) oder CER (Character Error Rate), die keinerlei Einblick in die Art oder Auswirkung der Fehler liefern, die bei der Vorhersage von Transkripten aus Spracheingaben entstehen. Diese Arbeit präsentiert eine Auswahl an ASR-Modellarchitekturen, die auf der deutschen Sprache vorgeschult wurden, und evaluiert diese anhand eines Benchmarks aus vielfältigen Testdatensätzen. Dabei werden überarchitekturübergreifende Vorhersagefehler identifiziert, in Kategorien eingeteilt und die Ursachen dieser Fehler pro Kategorie auf die Trainingsdaten sowie andere Quellen zurückverfolgt. Abschließend werden Lösungsansätze diskutiert, um qualitativ verbesserte Trainingsdatensätze zu erstellen und robusteren ASR-Systeme zu entwickeln.

Benchmark	Methodik	Metriken
automatic-speech-recognition-on-hui	Conformer Transducer	WER (%): 1.89%
automatic-speech-recognition-on-m-ailabs	Conformer Transducer	WER (%): 4.28%
automatic-speech-recognition-on-the-spoken	Conformer Transducer	WER (%): 8.04%
automatic-speech-recognition-on-voxforge	Conformer Transducer	WER (%): 3.36%
automatic-speech-recognition-on-voxpopuli	Conformer Transducer (German)	WER (%): 8.98%
speech-recognition-on-common-voice-german	Conformer Transducer (no LM)	Test WER: 6.28%
speech-recognition-on-tuda	Conformer-Transducer (no LM)	Test WER: 5.82%

Benchmark

Methodik

Metriken

automatic-speech-recognition-on-hui

Conformer Transducer

WER (%): 1.89%

automatic-speech-recognition-on-m-ailabs

Conformer Transducer

WER (%): 4.28%

automatic-speech-recognition-on-the-spoken

Conformer Transducer

WER (%): 8.04%