HyperAIHyperAI

Command Palette

Search for a command to run...

Segmentation Multidialectale de l'Arabe : bi-LSTM-CRF vs. SVM

Mohamed Eldesouki Younes Samih Ahmed Abdelali Mohammed Attia Hamdy Mubarak Kareem Darwish Laura Kallmeyer

Résumé

La segmentation des mots arabes est essentielle pour diverses applications de traitement du langage naturel (PLN), telles que la traduction automatique et la recherche d'information. La segmentation consiste à décomposer les mots en leurs éléments constitutifs, à savoir les radicaux, les affixes et les clitiques. Dans cet article, nous comparons deux approches pour segmenter quatre grands dialectes arabes en utilisant seulement quelques milliers d'exemples d'entraînement pour chaque dialecte. Les deux approches impliquent de formuler le problème comme un problème de classement, où un classifieur SVM (Support Vector Machine) sélectionne la meilleure segmentation, et comme un problème d'étiquetage de séquence, où un réseau neuronal récurrent bidirectionnel LSTM (Long Short-Term Memory) couplé avec une fonction CRF (Conditional Random Field) détermine les meilleures positions pour segmenter les mots. Nous sommes parvenus à obtenir des résultats solides de segmentation pour tous les dialectes en utilisant des données d'entraînement relativement limitées. Nous montrons également que l'utilisation de données en arabe standard moderne pour l'adaptation de domaine et l'hypothèse d'indépendance contextuelle améliorent globalement les résultats.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Segmentation Multidialectale de l'Arabe : bi-LSTM-CRF vs. SVM | Articles | HyperAI