il y a 6 mois

Résumé

Dans cet article, nous proposons une approche visant à résoudre le problème de la restauration automatique des diacritiques en arabe, composée de trois composants empilés en pipeline : un modèle d’apprentissage profond basé sur un réseau de neurones récurrents à plusieurs couches (LSTM et couches denses), un correcteur basé sur des règles au niveau des caractères, appliquant des opérations déterministes afin de prévenir certains types d’erreurs, et un correcteur statistique au niveau des mots, qui exploite le contexte et les informations de distance pour corriger certaines erreurs de diacritisation. Cette approche est novatrice dans la mesure où elle combine des méthodes de nature différente et intègre des corrections fondées sur la distance d’édition.Nous avons utilisé un grand jeu de données public contenant du texte arabe diacritisé bruts (Tashkeela) pour entraîner et évaluer notre système, après avoir nettoyé et normalisé les données. Sur un nouveau jeu de test récemment publié, notre système a surpassé tous les systèmes testés, atteignant un taux d’erreur de restauration (DER) de 3,39 % et un taux d’erreur de mot (WER) de 9,94 % lorsqu’on prend en compte toutes les lettres arabes, ainsi qu’un DER de 2,61 % et un WER de 5,83 % lorsque la diacritisation de la dernière lettre de chaque mot est ignorée.

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Traitement Du Langage Naturel

Jeu De Données

Compréhension De Document

Infrastructure D'ia

Traitement Du Langage Naturel

Tâche

Shengwu Xiong Hamza Abbad

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Traitement Du Langage Naturel

Jeu De Données

Compréhension De Document

Infrastructure D'ia

Traitement Du Langage Naturel

Tâche

Shengwu Xiong Hamza Abbad

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Système multi-composants pour la diacritisation automatique de l’arabe

Shengwu Xiong Hamza Abbad

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Système multi-composants pour la diacritisation automatique de l’arabe

Shengwu Xiong Hamza Abbad

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Système multi-composants pour la diacritisation automatique de l’arabe

Shengwu Xiong Hamza Abbad

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters