HyperAIHyperAI

Command Palette

Search for a command to run...

Spracherkennung auf vietnamesische End-to-End-Weise mit wav2vec 2.0

Thai Binh Nguyen

Zusammenfassung

Unsere Modelle werden zunächst auf 13.000 Stunden unbeschrifteten vietnamesischen YouTube-Audio (unlabel data) vortrainiert und anschließend auf 250 Stunden beschrifteten Audio-Material aus dem VLSP-ASR-Datensatz fine-tuned, wobei die Sprachdaten mit einer Abtastfrequenz von 16 kHz vorliegen. Als Architektur für das vortrainierte Modell verwenden wir wav2vec2. Im Fine-Tuning-Schritt wird wav2vec2 mittels Connectionist Temporal Classification (CTC) weitertrainiert, einem Algorithmus, der zur Ausbildung neuronalen Netzwerke für sequenzbasierte Aufgaben eingesetzt wird und vor allem in der automatischen Spracherkennung sowie der Handschriftenerkennung Anwendung findet. Auf dem Vivos-Datensatz erreichen wir eine WER-Quote von 6,15.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp