HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 4 mois

Modèles d'apprentissage profond efficaces pour la diacritisation automatique du texte arabe

{Ali Mustafa Qamar Mokthar Ali Hasan Madhfar}

Résumé

Lors de la conception d’un système de synthèse vocale pour la langue arabe, nous avons constaté que celui-ci produisait des énoncés avec de nombreuses erreurs de prononciation. La principale cause de ces erreurs réside dans l’absence de diacritiques dans l’écriture de l’arabe standard moderne. Ces diacritiques, de petits traits situés au-dessus ou en dessous de chaque lettre, fournissent des informations essentielles sur la prononciation et la grammaire. Nous proposons trois modèles basés sur l’apprentissage profond pour restaurer les diacritiques dans le texte arabe, fondés sur notre travail sur un système de synthèse vocale utilisant l’apprentissage profond. Le premier modèle constitue une référence de base, permettant d’évaluer les performances d’un modèle d’apprentissage profond simple sur les corpus étudiés. Le deuxième modèle repose sur une architecture encodeur-décodeur, similaire à notre modèle de synthèse vocale, mais adapté avec de nombreuses modifications spécifiques à ce problème. Le troisième modèle utilise uniquement la partie encodeur du modèle de synthèse vocale, atteignant ainsi des résultats de pointe en termes de taux d’erreur de mots et de taux d’erreur de diacritiques. Ces modèles pourront bénéficier à un large éventail d’applications en traitement du langage naturel, telles que la synthèse vocale, l’analyse morphosyntaxique (tagging) ou la traduction automatique.

Benchmarks

BenchmarkMéthodologieMétriques
arabic-text-diacritization-on-tashkeela-1CBHG model
Diacritic Error Rate: 0.0113
Word Error Rate (WER): 0.0443

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Modèles d'apprentissage profond efficaces pour la diacritisation automatique du texte arabe | Articles de recherche | HyperAI