Command Palette
Search for a command to run...
Détection automatique de dialectes dans les émissions arabes à la radio et à la télévision
Détection automatique de dialectes dans les émissions arabes à la radio et à la télévision
Ahmed Ali Najim Dehak Patrick Cardinal Sameer Khurana Sree Harsha Yella James Glass Peter Bell Steve Renals
Résumé
Nous examinons différentes approches pour l'identification des dialectes dans les discours arabes diffusés à la radio, en utilisant des caractéristiques phonétiques et lexicales obtenues à partir d'un système de reconnaissance vocale, ainsi que des caractéristiques acoustiques basées sur le cadre i-vecteur. Nous avons étudié à la fois des classifieurs génératifs et discriminants, et nous avons combiné ces caractéristiques en utilisant une machine à vecteurs de support (Support Vector Machine, SVM) multiclasses. Nous avons validé nos résultats sur une tâche d'identification de la langue arabe/anglaise, avec une précision de 100 %. Nous avons utilisé ces caractéristiques dans un classifieur binaire pour distinguer entre l'arabe standard moderne (MSA) et l'arabe dialectal, avec une précision de 100 %. Nous rapportons également les résultats obtenus en utilisant notre méthode pour discriminer entre les cinq dialectes arabes les plus couramment utilisés : l'égyptien, le golfe, le levantin, le nord-africain et l'MSA, avec une précision de 52 %. Nous discutons des erreurs d'identification des dialectes dans le contexte du code-switching entre l'arabe dialectal et l'MSA, et nous comparons les motifs d'erreur entre les données manuellement étiquetées et la sortie de notre classifieur. Nous mettons également à disposition les données d'apprentissage et de test comme corpus standard pour l'identification des dialectes.