GPT-3.5 für grammatische Fehlerkorrektur

Diese Arbeit untersucht die Anwendung von GPT-3.5 für die Grammatikfehlerkorrektur (Grammatical Error Correction, GEC) in mehreren Sprachen unter verschiedenen Bedingungen: Zero-shot-GEC, Fine-tuning für GEC sowie die Verwendung von GPT-3.5 zur Re-Ranking von Korrekturvorschlägen, die von anderen GEC-Modellen generiert wurden. Im Zero-shot-Szenario führen wir automatisierte Evaluierungen der von GPT-3.5 vorgeschlagenen Korrekturen mit mehreren Methoden durch: Abschätzung der Grammatikalität mittels Sprachmodellen (Language Models, LMs), dem Scribendi-Test sowie den Vergleich semantischer Embeddings von Sätzen. GPT-3.5 weist eine bekannte Neigung zur Überkorrektur fehlerhafter Sätze auf und schlägt oft alternative Korrekturen vor. Für mehrere Sprachen – darunter Tschechisch, Deutsch, Russisch, Spanisch und Ukrainisch – verändert GPT-3.5 die Quellsätze erheblich, einschließlich ihrer Semantik, was erhebliche Herausforderungen für die Bewertung mit referenzbasierten Metriken darstellt. Für Englisch zeigt GPT-3.5 eine hohe Recall-Rate, erzeugt fließende Korrekturen und bewahrt in der Regel die Satzsemantik. Dennoch zeigt die menschliche Evaluation sowohl für Englisch als auch für Russisch, dass GPT-3.5 trotz seiner starken Fehlererkennungsfähigkeiten Schwierigkeiten mit bestimmten Fehlerarten hat, darunter Interpunktionsfehler, Tempusfehler, syntaktische Abhängigkeiten zwischen Wörtern sowie lexikalische Inkompatibilitäten auf Satzebene.