Automatische Spracherkennung im Deutschen: Eine detaillierte Fehleranalyse
{René Peinl Johannes Wirth}

Abstract
Die Anzahl an frei verfügbaren Systemen für automatische Spracherkennung (ASR) auf Basis neuronalen Netzwerke wächst stetig, wobei gleichzeitig die Zuverlässigkeit der Vorhersagen zunimmt. Die Bewertung geschulter Modelle basiert jedoch typischerweise ausschließlich auf statistischen Metriken wie WER (Word Error Rate) oder CER (Character Error Rate), die keinerlei Einblick in die Art oder Auswirkung der Fehler liefern, die bei der Vorhersage von Transkripten aus Spracheingaben entstehen. Diese Arbeit präsentiert eine Auswahl an ASR-Modellarchitekturen, die auf der deutschen Sprache vorgeschult wurden, und evaluiert diese anhand eines Benchmarks aus vielfältigen Testdatensätzen. Dabei werden überarchitekturübergreifende Vorhersagefehler identifiziert, in Kategorien eingeteilt und die Ursachen dieser Fehler pro Kategorie auf die Trainingsdaten sowie andere Quellen zurückverfolgt. Abschließend werden Lösungsansätze diskutiert, um qualitativ verbesserte Trainingsdatensätze zu erstellen und robusteren ASR-Systeme zu entwickeln.
Benchmarks
| Benchmark | Methodik | Metriken |
|---|---|---|
| automatic-speech-recognition-on-hui | Conformer Transducer | WER (%): 1.89% |
| automatic-speech-recognition-on-m-ailabs | Conformer Transducer | WER (%): 4.28% |
| automatic-speech-recognition-on-the-spoken | Conformer Transducer | WER (%): 8.04% |
| automatic-speech-recognition-on-voxforge | Conformer Transducer | WER (%): 3.36% |
| automatic-speech-recognition-on-voxpopuli | Conformer Transducer (German) | WER (%): 8.98% |
| speech-recognition-on-common-voice-german | Conformer Transducer (no LM) | Test WER: 6.28% |
| speech-recognition-on-tuda | Conformer-Transducer (no LM) | Test WER: 5.82% |
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.