Open-Source-Automatische Spracherkennung für Deutsch

Hohe-Qualitäts-Automatische Spracherkennung (ASR) ist eine Voraussetzung für sprachbasierte Anwendungen und Forschung. Obwohl hochentwickelte ASR-Software kostenlos verfügbar ist, fehlen die sprachabhängigen akustischen Modelle für Sprachen außer Englisch aufgrund der begrenzten Menge an frei verfügbaren Trainingsdaten. Wir trainieren akustische Modelle für Deutsch mit Kaldi auf zwei Datensätzen, die beide unter einer Creative Commons Lizenz verteilt werden. Das resultierende Modell ist kostenlos weiterverteilbar, was den Einstieg in die deutsche ASR erleichtert. Die Modelle werden auf insgesamt 412 Stunden deutscher gesprochener Textdaten trainiert, und durch Hinzufügen von Daten aus dem Spoken Wikipedia Corpus zur bisher besten freien deutschen akustischen Modellrezept und -datensatz erreichen wir eine relative Wörterfeherrate-Reduktion von 26 %. Unser bestes Modell erzielt eine Wörterfehlerquote von 14,38 % im Tuda-De Testset. Aufgrund der großen Anzahl an Sprechern und der Vielfalt der Themen im Trainingsdatensatz ist unser Modell robust gegenüber Sprecherunterschieden und Themawechseln.