HyperAIHyperAI
il y a 11 jours

Système multi-composants pour la diacritisation automatique de l’arabe

{Shengwu Xiong, Hamza Abbad}
Système multi-composants pour la diacritisation automatique de l’arabe
Résumé

Dans cet article, nous proposons une approche visant à résoudre le problème de la restauration automatique des diacritiques en arabe, composée de trois composants empilés en pipeline : un modèle d’apprentissage profond basé sur un réseau de neurones récurrents à plusieurs couches (LSTM et couches denses), un correcteur basé sur des règles au niveau des caractères, appliquant des opérations déterministes afin de prévenir certains types d’erreurs, et un correcteur statistique au niveau des mots, qui exploite le contexte et les informations de distance pour corriger certaines erreurs de diacritisation. Cette approche est novatrice dans la mesure où elle combine des méthodes de nature différente et intègre des corrections fondées sur la distance d’édition.Nous avons utilisé un grand jeu de données public contenant du texte arabe diacritisé bruts (Tashkeela) pour entraîner et évaluer notre système, après avoir nettoyé et normalisé les données. Sur un nouveau jeu de test récemment publié, notre système a surpassé tous les systèmes testés, atteignant un taux d’erreur de restauration (DER) de 3,39 % et un taux d’erreur de mot (WER) de 9,94 % lorsqu’on prend en compte toutes les lettres arabes, ainsi qu’un DER de 2,61 % et un WER de 5,83 % lorsque la diacritisation de la dernière lettre de chaque mot est ignorée.

Système multi-composants pour la diacritisation automatique de l’arabe | Articles de recherche récents | HyperAI