RedPenNet für grammatische Fehlerkorrektur: Ausgaben an Tokens, Aufmerksamkeiten an Bereiche

Die Aufgaben des Texteditierens, einschließlich Satzfusion, Satzspaltung, Umformulierung, Textvereinfachung und Grammatikfehlerkorrektur (Grammatical Error Correction, GEC), zeichnen sich durch eine hohe Ähnlichkeit zwischen Eingabe- und Ausgabesequenzen aus. Dieser Forschungsbereich liegt an der Schnittstelle zweier etablierter Disziplinen: (i) vollständig autoregressiver sequenz-zu-Sequenz-Ansätze, die beispielsweise in der neuronalen Maschinübersetzung (Neural Machine Translation, NMT) üblich sind, und (ii) Sequenzmarkierungstechniken, die typischerweise für Aufgaben wie Part-of-Speech-Tagging, Named-Entity-Recognition (NER) und verwandte Probleme eingesetzt werden. Im Bestreben nach einer ausgewogenen Architektur haben Forscher zahlreiche kreative und unkonventionelle Lösungen entwickelt, die im Abschnitt „Related Works“ diskutiert werden. Unser Ansatz zur Bewältigung von Texteditieraufgaben wird als RedPenNet bezeichnet und zielt darauf ab, architektonische und parametrische Redundanzen in spezifischen Sequence-To-Edits-Modellen zu reduzieren, während gleichzeitig die Vorteile semi-autoregressiver Ansätze erhalten bleiben. Unsere Modelle erreichen F₀,₅-Scores von 77,60 auf dem BEA-2019-Testdatensatz (Test), was als Stand der Technik gilt – mit der Ausnahme von Systemkombinationen – und 67,71 auf den Benchmarks UAGEC+Fluency (Test). Diese Forschung wird im Rahmen der UNLP 2023-Workshop-Serie durchgeführt, wo sie als Paper zur Shared Task in Grammatikfehlerkorrektur (GEC) für die ukrainische Sprache präsentiert wurde. Ziel dieser Studie ist die Anwendung des RedPenNet-Ansatzes zur Lösung des GEC-Problems in der ukrainischen Sprache.