HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 4 mois

Système multi-composants pour la diacritisation automatique de l’arabe

{Shengwu Xiong Hamza Abbad}

Système multi-composants pour la diacritisation automatique de l’arabe

Résumé

Dans cet article, nous proposons une approche visant à résoudre le problème de la restauration automatique des diacritiques en arabe, composée de trois composants empilés en pipeline : un modèle d’apprentissage profond basé sur un réseau de neurones récurrents à plusieurs couches (LSTM et couches denses), un correcteur basé sur des règles au niveau des caractères, appliquant des opérations déterministes afin de prévenir certains types d’erreurs, et un correcteur statistique au niveau des mots, qui exploite le contexte et les informations de distance pour corriger certaines erreurs de diacritisation. Cette approche est novatrice dans la mesure où elle combine des méthodes de nature différente et intègre des corrections fondées sur la distance d’édition.Nous avons utilisé un grand jeu de données public contenant du texte arabe diacritisé bruts (Tashkeela) pour entraîner et évaluer notre système, après avoir nettoyé et normalisé les données. Sur un nouveau jeu de test récemment publié, notre système a surpassé tous les systèmes testés, atteignant un taux d’erreur de restauration (DER) de 3,39 % et un taux d’erreur de mot (WER) de 9,94 % lorsqu’on prend en compte toutes les lettres arabes, ainsi qu’un DER de 2,61 % et un WER de 5,83 % lorsque la diacritisation de la dernière lettre de chaque mot est ignorée.

Benchmarks

BenchmarkMéthodologieMétriques
arabic-text-diacritization-on-tashkeela-1MC
Diacritic Error Rate: 0.0339
Word Error Rate (WER): 0.0994

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Système multi-composants pour la diacritisation automatique de l’arabe | Articles de recherche | HyperAI