HyperAIHyperAI
il y a 11 jours

Modèles d'apprentissage profond efficaces pour la diacritisation automatique du texte arabe

{Ali Mustafa Qamar, Mokthar Ali Hasan Madhfar}
Résumé

Lors de la conception d’un système de synthèse vocale pour la langue arabe, nous avons constaté que celui-ci produisait des énoncés avec de nombreuses erreurs de prononciation. La principale cause de ces erreurs réside dans l’absence de diacritiques dans l’écriture de l’arabe standard moderne. Ces diacritiques, de petits traits situés au-dessus ou en dessous de chaque lettre, fournissent des informations essentielles sur la prononciation et la grammaire. Nous proposons trois modèles basés sur l’apprentissage profond pour restaurer les diacritiques dans le texte arabe, fondés sur notre travail sur un système de synthèse vocale utilisant l’apprentissage profond. Le premier modèle constitue une référence de base, permettant d’évaluer les performances d’un modèle d’apprentissage profond simple sur les corpus étudiés. Le deuxième modèle repose sur une architecture encodeur-décodeur, similaire à notre modèle de synthèse vocale, mais adapté avec de nombreuses modifications spécifiques à ce problème. Le troisième modèle utilise uniquement la partie encodeur du modèle de synthèse vocale, atteignant ainsi des résultats de pointe en termes de taux d’erreur de mots et de taux d’erreur de diacritiques. Ces modèles pourront bénéficier à un large éventail d’applications en traitement du langage naturel, telles que la synthèse vocale, l’analyse morphosyntaxique (tagging) ou la traduction automatique.

Modèles d'apprentissage profond efficaces pour la diacritisation automatique du texte arabe | Articles de recherche récents | HyperAI