HyperAIHyperAI
il y a 2 mois

SpeechBlender : Cadre de renforcement de la parole pour la génération de données de mauvaise prononciation

Yassine El Kheir; Shammur Absar Chowdhury; Ahmed Ali; Hamdy Mubarak; Shazia Afzal
SpeechBlender : Cadre de renforcement de la parole pour la génération de données de mauvaise prononciation
Résumé

Le manque de données de parole étiquetées en langue seconde (L2) constitue un défi majeur dans la conception de modèles de détection des erreurs de prononciation. Nous présentons SpeechBlender, une pipeline d'augmentation de données fine-grainée permettant de générer des erreurs de prononciation pour surmonter cette pénurie de données. SpeechBlender utilise diverses masques pour cibler différentes régions des unités phonétiques et des facteurs de mélange pour interpoler linéairement les signaux vocaux bruts tout en améliorant la prononciation. Les masques facilitent le mélange harmonieux des signaux, générant ainsi des échantillons plus efficaces que la méthode « Cut/Paste » ( Coupe/Collage ). Notre technique proposée atteint des résultats d'état de l'art avec Speechocean762, sur les modèles de détection des erreurs de prononciation dépendants de la reconnaissance automatique de la parole (ASR) au niveau phonétique, avec une amélioration de 2,0 % du coefficient de corrélation de Pearson (PCC) par rapport à l'état antérieur [1]. De plus, nous constatons une amélioration de 5,0 % au niveau phonétique par rapport à notre modèle référence. Nous avons également observé une augmentation de 4,6 % du score F1 avec le jeu d'essai AraVoiceL2 en arabe.

SpeechBlender : Cadre de renforcement de la parole pour la génération de données de mauvaise prononciation | Articles de recherche récents | HyperAI