HyperAIHyperAI

Command Palette

Search for a command to run...

SpeechBlender : Cadre de renforcement de la parole pour la génération de données de mauvaise prononciation

Yassine El Kheir Shammur Absar Chowdhury* Ahmed Ali Hamdy Mubarak Shazia Afzal

Résumé

Le manque de données de parole étiquetées en langue seconde (L2) constitue un défi majeur dans la conception de modèles de détection des erreurs de prononciation. Nous présentons SpeechBlender, une pipeline d'augmentation de données fine-grainée permettant de générer des erreurs de prononciation pour surmonter cette pénurie de données. SpeechBlender utilise diverses masques pour cibler différentes régions des unités phonétiques et des facteurs de mélange pour interpoler linéairement les signaux vocaux bruts tout en améliorant la prononciation. Les masques facilitent le mélange harmonieux des signaux, générant ainsi des échantillons plus efficaces que la méthode « Cut/Paste » ( Coupe/Collage ). Notre technique proposée atteint des résultats d'état de l'art avec Speechocean762, sur les modèles de détection des erreurs de prononciation dépendants de la reconnaissance automatique de la parole (ASR) au niveau phonétique, avec une amélioration de 2,0 % du coefficient de corrélation de Pearson (PCC) par rapport à l'état antérieur [1]. De plus, nous constatons une amélioration de 5,0 % au niveau phonétique par rapport à notre modèle référence. Nous avons également observé une augmentation de 4,6 % du score F1 avec le jeu d'essai AraVoiceL2 en arabe.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp