HyperAIHyperAI

Command Palette

Search for a command to run...

CATT : Transformateur de Tashkeel arabe basé sur les caractères

Abdulaziz Aljafri Ahmad Aljumaili Mohamed Al-Rajhi

Résumé

Le tashkeel, ou la diacritisation du texte arabe (ATD), améliore considérablement la compréhension du texte arabe en éliminant l'ambiguïté et en minimisant le risque de mauvaises interprétations causées par son absence. Il joue un rôle crucial dans l'amélioration du traitement du texte arabe, notamment dans des applications telles que la synthèse vocale et la traduction automatique. Cet article présente une nouvelle approche pour l'entraînement des modèles ATD. Tout d'abord, nous avons affiné deux transformateurs, l'un avec un encodeur uniquement et l'autre avec un encodeur-décodeur, initialisés à partir d'un BERT préentraîné basé sur les caractères. Ensuite, nous avons appliqué l'approche Noisy-Student pour améliorer les performances du meilleur modèle. Nous avons évalué nos modèles en comparaison avec 11 modèles commerciaux et open source à l'aide de deux jeux de données de référence manuellement annotés : WikiNews et notre jeu de données CATT. Nos résultats montrent que notre modèle principal dépasse tous les modèles évalués avec des taux d'erreur diacritique (DER) relatifs de 30,83% et 35,21% sur WikiNews et CATT, respectivement, atteignant ainsi l'état de l'art en matière d'ATD. De plus, nous démontrons que notre modèle surpasse GPT-4-turbo sur le jeu de données CATT avec un DER relatif de 9,36%. Nous mettons à disposition nos modèles CATT et notre jeu de données de référence pour la communauté scientifique\footnote{https://github.com/abjadai/catt}.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp