HyperAIHyperAI
il y a 2 mois

Diacritisation du texte arabe à l'aide de réseaux neuronaux profonds

Ali Fadel; Ibraheem Tuffaha; Bara' Al-Jawarneh; Mahmoud Al-Ayyoub
Diacritisation du texte arabe à l'aide de réseaux neuronaux profonds
Résumé

La diacritisation du texte arabe est à la fois un problème intéressant et un défi majeur, avec des applications variées allant de la synthèse vocale à l'aide des étudiants apprenant la langue arabe. Comme pour de nombreuses autres tâches ou problèmes de traitement du langage arabe, les efforts limités consacrés à ce problème et le manque de ressources disponibles (open-source) entravent les progrès vers sa résolution. Cette étude fournit une revue critique des systèmes, mesures et ressources actuellement existants pour la diacritisation du texte arabe. De plus, elle introduit un jeu de données nettoyé et gratuit, grandement nécessaire, qui peut être facilement utilisé pour évaluer toute recherche sur la diacritisation arabe. Extrait du corpus Tashkeela, ce jeu de données comprend 55 000 lignes contenant environ 2,3 millions de mots. Après avoir construit ce jeu de données, les outils et systèmes existants ont été testés dessus. Les résultats des expériences montrent que le système neuronal Shakkala surpasse significativement les approches traditionnelles basées sur des règles et d'autres outils propriétaires, avec un taux d'erreur diacritique (DER) de 2,88 % contre 13,78 %, qui est le meilleur DER pour l'approche non neuronale (obtenue par l'outil Mishkal).

Diacritisation du texte arabe à l'aide de réseaux neuronaux profonds | Articles de recherche récents | HyperAI