HyperAIHyperAI
vor 11 Tagen

Komparative Studie von Modellen, die auf synthetischen Daten für die grammatische Fehlerkorrektur des Ukrainischen trainiert wurden

{Andrii Fedorych, Andrii Shportko, Artem Yushko, Maksym Bondarenko}
Komparative Studie von Modellen, die auf synthetischen Daten für die grammatische Fehlerkorrektur des Ukrainischen trainiert wurden
Abstract

Die Aufgabe der grammatikalischen Fehlerkorrektur (Grammatical Error Correction, GEC) wurde umfassend für die englische Sprache untersucht. Ihre Anwendung auf Sprachen mit geringen Ressourcen, wie der ukrainischen Sprache, bleibt jedoch eine offene Herausforderung. In diesem Artikel entwickeln wir Sequenzmarkierungs- und neuronale Maschinenübersetzungsmodelle für die ukrainische Sprache sowie eine Reihe algorithmischer Korrekturregeln zur Ergänzung dieser Systeme. Außerdem erarbeiten wir Techniken zur Generierung synthetischer Daten für die ukrainische Sprache, um hochwertige, menschenähnliche Fehler zu erzeugen. Schließlich bestimmen wir die optimale Kombination synthetisch generierter Daten zur Erweiterung der bestehenden UA-GEC-Datenbank und erreichen auf dem neu etablierten UA-GEC-Benchmark Ergebnisse auf dem Stand der Technik mit einem F0,5-Score von 0,663. Der Quellcode und die trainierten Modelle werden öffentlich auf GitHub und HuggingFace bereitgestellt.

Komparative Studie von Modellen, die auf synthetischen Daten für die grammatische Fehlerkorrektur des Ukrainischen trainiert wurden | Neueste Forschungsarbeiten | HyperAI