HyperAIHyperAI

Command Palette

Search for a command to run...

Reconnaissance vocale bout-en-bout en vietnamien utilisant wav2vec 2.0

Thai Binh Nguyen

Résumé

Nos modèles sont pré-entraînés sur 13 000 heures d'audio vietnamien provenant de YouTube (données non étiquetées) et affinés sur 250 heures de données étiquetées issues du jeu de données VLSP ASR, avec des enregistrements audio échantillonnés à 16 kHz. Nous utilisons l'architecture wav2vec2 pour le modèle pré-entraîné. Pendant la phase d'affinage, wav2vec2 est affiné à l'aide de la Classification Temporelle Connexionniste (CTC), un algorithme utilisé pour entraîner des réseaux neuronaux dans des problèmes séquence-à-séquence, principalement en reconnaissance automatique de parole et en reconnaissance de l'écriture manuscrite. Sur le jeu de données Vivos, nous avons atteint un taux d'erreur de mot (WER) de 6,15 %.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp