il y a 3 mois

Reconnaissance vocale bout-en-bout en vietnamien utilisant wav2vec 2.0

{Thai Binh Nguyen}

Résumé

Nos modèles sont pré-entraînés sur 13 000 heures d'audio vietnamien provenant de YouTube (données non étiquetées) et affinés sur 250 heures de données étiquetées issues du jeu de données VLSP ASR, avec des enregistrements audio échantillonnés à 16 kHz. Nous utilisons l'architecture wav2vec2 pour le modèle pré-entraîné. Pendant la phase d'affinage, wav2vec2 est affiné à l'aide de la Classification Temporelle Connexionniste (CTC), un algorithme utilisé pour entraîner des réseaux neuronaux dans des problèmes séquence-à-séquence, principalement en reconnaissance automatique de parole et en reconnaissance de l'écriture manuscrite. Sur le jeu de données Vivos, nous avons atteint un taux d'erreur de mot (WER) de 6,15 %.