HyperAIHyperAI

Command Palette

Search for a command to run...

TEVR: Verbesserung der Spracherkennung durch Reduktion der Token-Entropie-Varianz

Hajo Nils Krabbenhöft Erhardt Barth

Zusammenfassung

Diese Arbeit stellt TEVR vor, ein Spracherkennungsmodell, das darauf ausgelegt ist, die Variation der Token-Entropie bezüglich des Sprachmodells zu minimieren. Dies nutzt aus, dass, wenn das Sprachmodell ein Token ohnehin zuverlässig und genau vorhersagen kann, das akustische Modell dessen Erkennung nicht mit gleicher Genauigkeit erforderlich ist. Wir trainieren deutsche ASR-Modelle mit 900 Millionen Parametern und zeigen, dass TEVR auf dem Datensatz CommonVoice German eine sehr wettbewerbsfähige Wortfehlerquote von 3,64 % erreicht, was eine relative Reduktion der Wortfehlerquote um 16,89 % gegenüber den bisher besten veröffentlichten Ergebnissen darstellt. Wir hoffen, dass die Veröffentlichung unserer vollständig trainierten Spracherkennungspipeline an die Gemeinschaft zukünftig die Entwicklung von datenschutzfreundlichen Offline-Virtual Assistants ermöglicht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp