Ein ressourcenschwacher Ansatz zur grammatischen Fehlerkorrektur des Ukrainischen
{and Dan Roth Alla Rozovskaya Frank Palma Gomez}

Abstract
Wir präsentieren unser System, das an der gemeinsamen Aufgabe zur grammatischen Fehlerkorrektur des Ukrainischen teilgenommen hat. Wir haben zwei Ansätze implementiert, die große vortrainierte Sprachmodelle und synthetische Daten nutzen, welche bereits für die Fehlerkorrektur von Englisch sowie für sprachlich unterversorgte Sprachen eingesetzt wurden. Der erste Ansatz basiert auf einer zweistufigen Feinabstimmung (fine-tuning) eines großen mehrsprachigen Sprachmodells (mT5): zunächst auf synthetischen Daten, anschließend auf Gold-Daten. Der zweite Ansatz trainiert ein kleineres seq2seq-Transformer-Modell, das zunächst auf synthetischen Daten vortrainiert und dann auf Gold-Daten feinabgestimmt wird. Unser mT5-basiertes Modell erreichte den ersten Platz im „GEC only“-Wettbewerb und einen sehr knappen zweiten Platz im „GEC+Fluency“-Wettbewerb. Unsere beiden zentralen Innovationen sind (1) das zweistufige Feinabstimmen, zunächst auf synthetischen, dann auf Gold-Daten; und (2) eine hochwertige Korruptionsmethode basierend auf dem Roundtrip-Maschinellen Übersetzen, die bestehende Noisification-Ansätze ergänzt.
Benchmarks
| Benchmark | Methodik | Metriken |
|---|---|---|
| grammatical-error-correction-on-ua-gec | mT5 large + 10M synth | F0.5: 68.09 |
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.