HyperAIHyperAI

Command Palette

Search for a command to run...

Amélioration de l'état de l'art précédent en reconnaissance vocale frisonne (Frisian ASR) par une adaptation fine de XLS-R

Golshid Shekoufandeh Dragoș Alexandru Bălan

Résumé

La reconnaissance automatique de la parole (ASR), système qui convertit la parole humaine en texte, joue un rôle fondamental dans la digitalisation de la communication humaine. Malgré leur importance, la plupart de ces systèmes sont conçus pour des langues à ressources abondantes, telles que l’anglais, le mandarin ou l’espagnol, laissant ainsi les langues à faibles ressources, comme le frison, sous-représentées. Pour pallier ce problème, notre article présente un modèle ASR affiné basé sur l’architecture Wav2Vec 2.0 XLS-R, entraîné sur le corpus Common Voice version 12.0, afin de transcrire la parole frisonne. Avec un taux d’apprentissage de 8e-5, le système ASR proposé atteint un taux d’erreur de mot (WER) de 15,99 %, surpassant ainsi l’état de l’art précédent de 16,25 % et établissant une référence pour les recherches futures dans ce domaine.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp