HyperAIHyperAI
il y a 2 mois

Segmentation Multidialectale de l'Arabe : bi-LSTM-CRF vs. SVM

Mohamed Eldesouki; Younes Samih; Ahmed Abdelali; Mohammed Attia; Hamdy Mubarak; Kareem Darwish; Kallmeyer Laura
Segmentation Multidialectale de l'Arabe : bi-LSTM-CRF vs. SVM
Résumé

La segmentation des mots arabes est essentielle pour diverses applications de traitement du langage naturel (PLN), telles que la traduction automatique et la recherche d'information. La segmentation consiste à décomposer les mots en leurs éléments constitutifs, à savoir les radicaux, les affixes et les clitiques. Dans cet article, nous comparons deux approches pour segmenter quatre grands dialectes arabes en utilisant seulement quelques milliers d'exemples d'entraînement pour chaque dialecte. Les deux approches impliquent de formuler le problème comme un problème de classement, où un classifieur SVM (Support Vector Machine) sélectionne la meilleure segmentation, et comme un problème d'étiquetage de séquence, où un réseau neuronal récurrent bidirectionnel LSTM (Long Short-Term Memory) couplé avec une fonction CRF (Conditional Random Field) détermine les meilleures positions pour segmenter les mots. Nous sommes parvenus à obtenir des résultats solides de segmentation pour tous les dialectes en utilisant des données d'entraînement relativement limitées. Nous montrons également que l'utilisation de données en arabe standard moderne pour l'adaptation de domaine et l'hypothèse d'indépendance contextuelle améliorent globalement les résultats.