Deep Diacritization : Récurrent Hiérarchique Efficace pour une Meilleure Diacritisation de l’Arabe

Nous proposons une nouvelle architecture pour l'étiquetage de séquences de caractères qui obtient des résultats d'avant-garde sur le benchmark de tashkīl (diacritisation arabe). Le cœur de cette architecture est une hiérarchie à deux niveaux de récurrence qui opère séparément au niveau des mots et des caractères, permettant ainsi une formation et une inférence plus rapides que les modèles traditionnels comparables. Un module d'attention inter-niveaux connecte davantage ces deux niveaux, ouvrant la voie à l'interprétabilité du réseau. Le module de tâche est un classifieur softmax qui énumère les combinaisons valides de diacritiques. Cette architecture peut être étendue par un décodeur récurrent qui accepte optionnellement des a priori provenant de texte partiellement diacritisé, ce qui améliore les résultats. Nous utilisons également des techniques supplémentaires telles que le dropout de phrases et le vote majoritaire pour augmenter encore davantage le résultat final. Notre meilleur modèle atteint un taux d'erreur sur les mots (WER) de 5,34 %, surpassant l'état de l'art précédent avec une réduction relative de l'erreur de 30,56 %.