Détection automatique de dialectes dans les émissions arabes à la radio et à la télévision

Nous examinons différentes approches pour l'identification des dialectes dans les discours arabes diffusés à la radio, en utilisant des caractéristiques phonétiques et lexicales obtenues à partir d'un système de reconnaissance vocale, ainsi que des caractéristiques acoustiques basées sur le cadre i-vecteur. Nous avons étudié à la fois des classifieurs génératifs et discriminants, et nous avons combiné ces caractéristiques en utilisant une machine à vecteurs de support (Support Vector Machine, SVM) multiclasses. Nous avons validé nos résultats sur une tâche d'identification de la langue arabe/anglaise, avec une précision de 100 %. Nous avons utilisé ces caractéristiques dans un classifieur binaire pour distinguer entre l'arabe standard moderne (MSA) et l'arabe dialectal, avec une précision de 100 %. Nous rapportons également les résultats obtenus en utilisant notre méthode pour discriminer entre les cinq dialectes arabes les plus couramment utilisés : l'égyptien, le golfe, le levantin, le nord-africain et l'MSA, avec une précision de 52 %. Nous discutons des erreurs d'identification des dialectes dans le contexte du code-switching entre l'arabe dialectal et l'MSA, et nous comparons les motifs d'erreur entre les données manuellement étiquetées et la sortie de notre classifieur. Nous mettons également à disposition les données d'apprentissage et de test comme corpus standard pour l'identification des dialectes.