HyperAIHyperAI
il y a 2 mois

Diacritisation du texte arabe neuronal : résultats de l'état de l'art et une nouvelle approche pour la traduction automatique

Ali Fadel; Ibraheem Tuffaha; Bara' Al-Jawarneh; Mahmoud Al-Ayyoub
Diacritisation du texte arabe neuronal : résultats de l'état de l'art et une nouvelle approche pour la traduction automatique
Résumé

Dans cette étude, nous présentons plusieurs modèles d'apprentissage profond pour la diacritisation automatique du texte arabe. Nos modèles sont construits à partir de deux approches principales, à savoir le Réseau Neuronal Feed-Forward (FFNN) et le Réseau Neuronal Récurent (RNN), avec plusieurs améliorations telles que l'encodage 100-hot, les embeddings, le Champ Aléatoire Conditionnel (CRF) et le Gradient Normalisé par Bloc (BNG). Les modèles sont évalués sur l'unique jeu de données de référence librement disponible, et les résultats montrent que nos modèles sont soit meilleurs, soit comparables à d'autres modèles nécessitant des étapes de post-traitement dépendantes de la langue, ce qui n'est pas le cas des nôtres. De plus, nous démontrons que les diacritiques en arabe peuvent être utilisés pour améliorer les modèles de tâches de traitement du langage naturel (NLP) telles que la Traduction Automatique (MT) en proposant l'approche Translation over Diacritization (ToD).

Diacritisation du texte arabe neuronal : résultats de l'état de l'art et une nouvelle approche pour la traduction automatique | Articles de recherche récents | HyperAI