HyperAIHyperAI

Command Palette

Search for a command to run...

Open-Source-Automatische Spracherkennung für Deutsch

Benjamin Milde Arne Köhn

Zusammenfassung

Hohe-Qualitäts-Automatische Spracherkennung (ASR) ist eine Voraussetzung für sprachbasierte Anwendungen und Forschung. Obwohl hochentwickelte ASR-Software kostenlos verfügbar ist, fehlen die sprachabhängigen akustischen Modelle für Sprachen außer Englisch aufgrund der begrenzten Menge an frei verfügbaren Trainingsdaten. Wir trainieren akustische Modelle für Deutsch mit Kaldi auf zwei Datensätzen, die beide unter einer Creative Commons Lizenz verteilt werden. Das resultierende Modell ist kostenlos weiterverteilbar, was den Einstieg in die deutsche ASR erleichtert. Die Modelle werden auf insgesamt 412 Stunden deutscher gesprochener Textdaten trainiert, und durch Hinzufügen von Daten aus dem Spoken Wikipedia Corpus zur bisher besten freien deutschen akustischen Modellrezept und -datensatz erreichen wir eine relative Wörterfeherrate-Reduktion von 26 %. Unser bestes Modell erzielt eine Wörterfehlerquote von 14,38 % im Tuda-De Testset. Aufgrund der großen Anzahl an Sprechern und der Vielfalt der Themen im Trainingsdatensatz ist unser Modell robust gegenüber Sprecherunterschieden und Themawechseln.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp