HyperAIHyperAI

Command Palette

Search for a command to run...

Étude comparative des modèles entraînés sur des données synthétiques pour la correction des erreurs grammaticales en ukrainien

Andrii Fedorych Andrii Shportko Artem Yushko Maksym Bondarenko

Résumé

La tâche de correction des erreurs grammaticales (GEC) a été largement étudiée pour la langue anglaise. Toutefois, son application aux langues à faibles ressources, telles que l’ukrainien, reste un défi ouvert. Dans cet article, nous développons des modèles de balisage de séquences et des modèles de traduction automatique neuronale pour la langue ukrainienne, ainsi qu’un ensemble de règles algorithmiques de correction pour compléter ces systèmes. Nous proposons également des techniques de génération de données synthétiques pour la langue ukrainienne afin de produire des erreurs de haute qualité, semblant humaines. Enfin, nous déterminons la meilleure combinaison de données synthétiques pour enrichir le corpus existant UA-GEC, atteignant ainsi un résultat de pointe de 0,663 en F0,5 sur la nouvelle référence UA-GEC. Le code source et les modèles entraînés seront rendus accessibles publiquement sur GitHub et HuggingFace.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp