HyperAIHyperAI
il y a 2 mois

DPCSpell : Un cadre de détection, purification et correction basé sur le Transformer pour la correction des erreurs d'orthographe en bengali et en langues indic sous-dotées en ressources

Mehedi Hasan Bijoy; Nahid Hossain; Salekul Islam; Swakkhar Shatabda
DPCSpell : Un cadre de détection, purification et correction basé sur le Transformer pour la correction des erreurs d'orthographe en bengali et en langues indic sous-dotées en ressources
Résumé

La correction des erreurs d'orthographe est la tâche consistant à identifier et à corriger les mots mal orthographiés dans les textes. C'est un sujet de recherche potentiel et actif en traitement automatique des langues naturelles (TALN) en raison de ses nombreuses applications dans la compréhension du langage humain. Les caractères phonétiquement ou visuellement similaires mais sémantiquement distincts rendent cette tâche ardue dans n'importe quelle langue. Les premières tentatives de correction des erreurs d'orthographe en bengali et en langues indiennes à ressources limitées se sont concentrées sur des méthodes basées sur des règles, des statistiques et l'apprentissage automatique, que nous avons trouvées plutôt inefficaces. En particulier, les approches basées sur l'apprentissage automatique, qui présentent une performance supérieure aux méthodes basées sur des règles et des statistiques, sont inefficaces car elles corrigent chaque caractère sans tenir compte de sa pertinence. Dans cet article, nous proposons un cadre novateur détecteur-nettoyeur-correcteur (DPCSpell) basé sur les transformateurs débruiteurs pour résoudre ces problèmes antérieurs. De plus, nous présentons une méthode pour la création d'un corpus à grande échelle à partir de zéro, ce qui résout le problème de limitation des ressources propre à toute langue scriptée de gauche à droite. Les résultats empiriques démontrent l'efficacité de notre approche, qui surpassent les méthodes précédentes de pointe en atteignant un score d'exactitude totale (EM) de 94,78 %, un score de précision de 0,9487, un score de rappel de 0,9478, un score F1 de 0,948, un score F0.5 de 0,9483 et un score d'exactitude modifiée (MA) de 95,16 % pour la correction des erreurs d'orthographe en bengali. Les modèles et le corpus sont disponibles au public à l'adresse suivante : https://tinyurl.com/DPCSpell.

DPCSpell : Un cadre de détection, purification et correction basé sur le Transformer pour la correction des erreurs d'orthographe en bengali et en langues indic sous-dotées en ressources | Articles de recherche récents | HyperAI