HyperAIHyperAI
il y a 11 jours

Étude comparative des modèles entraînés sur des données synthétiques pour la correction des erreurs grammaticales en ukrainien

{Andrii Fedorych, Andrii Shportko, Artem Yushko, Maksym Bondarenko}
Étude comparative des modèles entraînés sur des données synthétiques pour la correction des erreurs grammaticales en ukrainien
Résumé

La tâche de correction des erreurs grammaticales (GEC) a été largement étudiée pour la langue anglaise. Toutefois, son application aux langues à faibles ressources, telles que l’ukrainien, reste un défi ouvert. Dans cet article, nous développons des modèles de balisage de séquences et des modèles de traduction automatique neuronale pour la langue ukrainienne, ainsi qu’un ensemble de règles algorithmiques de correction pour compléter ces systèmes. Nous proposons également des techniques de génération de données synthétiques pour la langue ukrainienne afin de produire des erreurs de haute qualité, semblant humaines. Enfin, nous déterminons la meilleure combinaison de données synthétiques pour enrichir le corpus existant UA-GEC, atteignant ainsi un résultat de pointe de 0,663 en F0,5 sur la nouvelle référence UA-GEC. Le code source et les modèles entraînés seront rendus accessibles publiquement sur GitHub et HuggingFace.

Étude comparative des modèles entraînés sur des données synthétiques pour la correction des erreurs grammaticales en ukrainien | Articles de recherche récents | HyperAI