HyperAIHyperAI

Command Palette

Search for a command to run...

Système multi-composants pour la diacritisation automatique de l’arabe

Shengwu Xiong Hamza Abbad

Résumé

Dans cet article, nous proposons une approche visant à résoudre le problème de la restauration automatique des diacritiques en arabe, composée de trois composants empilés en pipeline : un modèle d’apprentissage profond basé sur un réseau de neurones récurrents à plusieurs couches (LSTM et couches denses), un correcteur basé sur des règles au niveau des caractères, appliquant des opérations déterministes afin de prévenir certains types d’erreurs, et un correcteur statistique au niveau des mots, qui exploite le contexte et les informations de distance pour corriger certaines erreurs de diacritisation. Cette approche est novatrice dans la mesure où elle combine des méthodes de nature différente et intègre des corrections fondées sur la distance d’édition.Nous avons utilisé un grand jeu de données public contenant du texte arabe diacritisé bruts (Tashkeela) pour entraîner et évaluer notre système, après avoir nettoyé et normalisé les données. Sur un nouveau jeu de test récemment publié, notre système a surpassé tous les systèmes testés, atteignant un taux d’erreur de restauration (DER) de 3,39 % et un taux d’erreur de mot (WER) de 9,94 % lorsqu’on prend en compte toutes les lettres arabes, ainsi qu’un DER de 2,61 % et un WER de 5,83 % lorsque la diacritisation de la dernière lettre de chaque mot est ignorée.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp