HyperAIHyperAI
vor 11 Tagen

Ein ressourcenschwacher Ansatz zur grammatischen Fehlerkorrektur des Ukrainischen

{and Dan Roth, Alla Rozovskaya, Frank Palma Gomez}
Ein ressourcenschwacher Ansatz zur grammatischen Fehlerkorrektur des Ukrainischen
Abstract

Wir präsentieren unser System, das an der gemeinsamen Aufgabe zur grammatischen Fehlerkorrektur des Ukrainischen teilgenommen hat. Wir haben zwei Ansätze implementiert, die große vortrainierte Sprachmodelle und synthetische Daten nutzen, welche bereits für die Fehlerkorrektur von Englisch sowie für sprachlich unterversorgte Sprachen eingesetzt wurden. Der erste Ansatz basiert auf einer zweistufigen Feinabstimmung (fine-tuning) eines großen mehrsprachigen Sprachmodells (mT5): zunächst auf synthetischen Daten, anschließend auf Gold-Daten. Der zweite Ansatz trainiert ein kleineres seq2seq-Transformer-Modell, das zunächst auf synthetischen Daten vortrainiert und dann auf Gold-Daten feinabgestimmt wird. Unser mT5-basiertes Modell erreichte den ersten Platz im „GEC only“-Wettbewerb und einen sehr knappen zweiten Platz im „GEC+Fluency“-Wettbewerb. Unsere beiden zentralen Innovationen sind (1) das zweistufige Feinabstimmen, zunächst auf synthetischen, dann auf Gold-Daten; und (2) eine hochwertige Korruptionsmethode basierend auf dem Roundtrip-Maschinellen Übersetzen, die bestehende Noisification-Ansätze ergänzt.

Ein ressourcenschwacher Ansatz zur grammatischen Fehlerkorrektur des Ukrainischen | Neueste Forschungsarbeiten | HyperAI