HyperAIHyperAI

Command Palette

Search for a command to run...

Diacritisation du texte arabe à l'aide de réseaux neuronaux profonds

Ali Fadel Ibraaheem Tuffaha Bara’ Al-Jawarneh Mahmoud Al-Ayyoub

Résumé

La diacritisation du texte arabe est à la fois un problème intéressant et un défi majeur, avec des applications variées allant de la synthèse vocale à l'aide des étudiants apprenant la langue arabe. Comme pour de nombreuses autres tâches ou problèmes de traitement du langage arabe, les efforts limités consacrés à ce problème et le manque de ressources disponibles (open-source) entravent les progrès vers sa résolution. Cette étude fournit une revue critique des systèmes, mesures et ressources actuellement existants pour la diacritisation du texte arabe. De plus, elle introduit un jeu de données nettoyé et gratuit, grandement nécessaire, qui peut être facilement utilisé pour évaluer toute recherche sur la diacritisation arabe. Extrait du corpus Tashkeela, ce jeu de données comprend 55 000 lignes contenant environ 2,3 millions de mots. Après avoir construit ce jeu de données, les outils et systèmes existants ont été testés dessus. Les résultats des expériences montrent que le système neuronal Shakkala surpasse significativement les approches traditionnelles basées sur des règles et d'autres outils propriétaires, avec un taux d'erreur diacritique (DER) de 2,88 % contre 13,78 %, qui est le meilleur DER pour l'approche non neuronale (obtenue par l'outil Mishkal).


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Diacritisation du texte arabe à l'aide de réseaux neuronaux profonds | Articles | HyperAI