HyperAIHyperAI

Command Palette

Search for a command to run...

Deep Diacritization : Récurrent Hiérarchique Efficace pour une Meilleure Diacritisation de l’Arabe

Badr AlKhamissi Muhammad N. ElNokrashy Mohamed Gabr

Résumé

Nous proposons une nouvelle architecture pour l'étiquetage de séquences de caractères qui obtient des résultats d'avant-garde sur le benchmark de tashkīl (diacritisation arabe). Le cœur de cette architecture est une hiérarchie à deux niveaux de récurrence qui opère séparément au niveau des mots et des caractères, permettant ainsi une formation et une inférence plus rapides que les modèles traditionnels comparables. Un module d'attention inter-niveaux connecte davantage ces deux niveaux, ouvrant la voie à l'interprétabilité du réseau. Le module de tâche est un classifieur softmax qui énumère les combinaisons valides de diacritiques. Cette architecture peut être étendue par un décodeur récurrent qui accepte optionnellement des a priori provenant de texte partiellement diacritisé, ce qui améliore les résultats. Nous utilisons également des techniques supplémentaires telles que le dropout de phrases et le vote majoritaire pour augmenter encore davantage le résultat final. Notre meilleur modèle atteint un taux d'erreur sur les mots (WER) de 5,34 %, surpassant l'état de l'art précédent avec une réduction relative de l'erreur de 30,56 %.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Deep Diacritization : Récurrent Hiérarchique Efficace pour une Meilleure Diacritisation de l’Arabe | Articles | HyperAI