CTC-Segmentierung großer Korpora für deutsche End-to-End-Spracherkennung

Neuere end-to-end-Systeme für automatische Spracherkennung (Automatic Speech Recognition, ASR) haben gezeigt, dass sie herkömmliche hybride DNN/HMM-ASR-Systeme übertrifft. Neben architektonischen Verbesserungen wuchsen diese Modelle hinsichtlich Tiefe, Anzahl der Parameter und Modellkapazität. Allerdings erfordern diese Modelle auch mehr Trainingsdaten, um eine vergleichbare Leistung zu erzielen.In dieser Arbeit kombinieren wir frei verfügbare Korpora für die Spracherkennung im Deutschen, einschließlich bisher nicht beschrifteter Sprachdaten, zu einem großen Datensatz mit über 1700 Stunden Sprachmaterial. Zur Datenvorbereitung schlagen wir einen zweistufigen Ansatz vor, der ein mit Connectionist Temporal Classification (CTC) vortrainiertes ASR-Modell nutzt, um aus unsegmentierten oder nicht beschrifteten Trainingsdaten zusätzliche Trainingsdaten zu generieren. Aussagen werden dann aus den aus dem CTC-getrainierten Netzwerk abgeleiteten Label-Wahrscheinlichkeiten extrahiert, um Segmentierungen zu bestimmen. Mit diesem Trainingsdatensatz trainieren wir ein hybrides CTC/Attention-Transformer-Modell, das auf dem Tuda-DE-Testset eine Wortfehlerquote (WER) von 12,8 % erreicht und damit die vorherige Baseline von 14,4 % des herkömmlichen hybriden DNN/HMM-ASR-Systems übertrifft.