HyperAIHyperAI

Command Palette

Search for a command to run...

CTC-Segmentierung großer Korpora für deutsche End-to-End-Spracherkennung

Ludwig Kürzinger Dominik Winkelbauer Lujun Li Tobias Watzel Gerhard Rigoll

Zusammenfassung

Neuere end-to-end-Systeme für automatische Spracherkennung (Automatic Speech Recognition, ASR) haben gezeigt, dass sie herkömmliche hybride DNN/HMM-ASR-Systeme übertrifft. Neben architektonischen Verbesserungen wuchsen diese Modelle hinsichtlich Tiefe, Anzahl der Parameter und Modellkapazität. Allerdings erfordern diese Modelle auch mehr Trainingsdaten, um eine vergleichbare Leistung zu erzielen.In dieser Arbeit kombinieren wir frei verfügbare Korpora für die Spracherkennung im Deutschen, einschließlich bisher nicht beschrifteter Sprachdaten, zu einem großen Datensatz mit über 1700 Stunden Sprachmaterial. Zur Datenvorbereitung schlagen wir einen zweistufigen Ansatz vor, der ein mit Connectionist Temporal Classification (CTC) vortrainiertes ASR-Modell nutzt, um aus unsegmentierten oder nicht beschrifteten Trainingsdaten zusätzliche Trainingsdaten zu generieren. Aussagen werden dann aus den aus dem CTC-getrainierten Netzwerk abgeleiteten Label-Wahrscheinlichkeiten extrahiert, um Segmentierungen zu bestimmen. Mit diesem Trainingsdatensatz trainieren wir ein hybrides CTC/Attention-Transformer-Modell, das auf dem Tuda-DE-Testset eine Wortfehlerquote (WER) von 12,8 % erreicht und damit die vorherige Baseline von 14,4 % des herkömmlichen hybriden DNN/HMM-ASR-Systems übertrifft.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp