HyperAIHyperAI
il y a 17 jours

Amélioration de l'état de l'art précédent en reconnaissance vocale frisonne (Frisian ASR) par une adaptation fine de XLS-R

{Golshid Shekoufandeh, Dragoș Alexandru Bălan}
Résumé

La reconnaissance automatique de la parole (ASR), système qui convertit la parole humaine en texte, joue un rôle fondamental dans la digitalisation de la communication humaine. Malgré leur importance, la plupart de ces systèmes sont conçus pour des langues à ressources abondantes, telles que l’anglais, le mandarin ou l’espagnol, laissant ainsi les langues à faibles ressources, comme le frison, sous-représentées. Pour pallier ce problème, notre article présente un modèle ASR affiné basé sur l’architecture Wav2Vec 2.0 XLS-R, entraîné sur le corpus Common Voice version 12.0, afin de transcrire la parole frisonne. Avec un taux d’apprentissage de 8e-5, le système ASR proposé atteint un taux d’erreur de mot (WER) de 15,99 %, surpassant ainsi l’état de l’art précédent de 16,25 % et établissant une référence pour les recherches futures dans ce domaine.

Amélioration de l'état de l'art précédent en reconnaissance vocale frisonne (Frisian ASR) par une adaptation fine de XLS-R | Articles de recherche récents | HyperAI