HyperAIHyperAI
vor 17 Tagen

Spracherkennung auf vietnamesische End-to-End-Weise mit wav2vec 2.0

{Thai Binh Nguyen}
Abstract

Unsere Modelle werden zunächst auf 13.000 Stunden unbeschrifteten vietnamesischen YouTube-Audio (unlabel data) vortrainiert und anschließend auf 250 Stunden beschrifteten Audio-Material aus dem VLSP-ASR-Datensatz fine-tuned, wobei die Sprachdaten mit einer Abtastfrequenz von 16 kHz vorliegen. Als Architektur für das vortrainierte Modell verwenden wir wav2vec2. Im Fine-Tuning-Schritt wird wav2vec2 mittels Connectionist Temporal Classification (CTC) weitertrainiert, einem Algorithmus, der zur Ausbildung neuronalen Netzwerke für sequenzbasierte Aufgaben eingesetzt wird und vor allem in der automatischen Spracherkennung sowie der Handschriftenerkennung Anwendung findet. Auf dem Vivos-Datensatz erreichen wir eine WER-Quote von 6,15.