HyperAIHyperAI

Command Palette

Search for a command to run...

vor 4 Monaten

Ein ressourcenschwacher Ansatz zur grammatischen Fehlerkorrektur des Ukrainischen

{and Dan Roth Alla Rozovskaya Frank Palma Gomez}

Ein ressourcenschwacher Ansatz zur grammatischen Fehlerkorrektur des Ukrainischen

Abstract

Wir präsentieren unser System, das an der gemeinsamen Aufgabe zur grammatischen Fehlerkorrektur des Ukrainischen teilgenommen hat. Wir haben zwei Ansätze implementiert, die große vortrainierte Sprachmodelle und synthetische Daten nutzen, welche bereits für die Fehlerkorrektur von Englisch sowie für sprachlich unterversorgte Sprachen eingesetzt wurden. Der erste Ansatz basiert auf einer zweistufigen Feinabstimmung (fine-tuning) eines großen mehrsprachigen Sprachmodells (mT5): zunächst auf synthetischen Daten, anschließend auf Gold-Daten. Der zweite Ansatz trainiert ein kleineres seq2seq-Transformer-Modell, das zunächst auf synthetischen Daten vortrainiert und dann auf Gold-Daten feinabgestimmt wird. Unser mT5-basiertes Modell erreichte den ersten Platz im „GEC only“-Wettbewerb und einen sehr knappen zweiten Platz im „GEC+Fluency“-Wettbewerb. Unsere beiden zentralen Innovationen sind (1) das zweistufige Feinabstimmen, zunächst auf synthetischen, dann auf Gold-Daten; und (2) eine hochwertige Korruptionsmethode basierend auf dem Roundtrip-Maschinellen Übersetzen, die bestehende Noisification-Ansätze ergänzt.

Benchmarks

BenchmarkMethodikMetriken
grammatical-error-correction-on-ua-gecmT5 large + 10M synth
F0.5: 68.09

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Ein ressourcenschwacher Ansatz zur grammatischen Fehlerkorrektur des Ukrainischen | Forschungsarbeiten | HyperAI