Unüberwachter grammatischer Fehlerkorrekturverfahren, die überwachte Methoden herausfordern

Stand der Technik befindliche Systeme zur grammatikalischen Fehlerkorrektur (GEC) basieren auf parallelen Trainingsdaten (ungrammatikalische Sätze und ihre manuell korrigierten Versionen), die aufwändig zu erstellen sind. In diesem Artikel setzen wir die Break-It-Fix-It (BIFI)-Methode ein, um ein unsupervisiertes GEC-System zu entwickeln. Der BIFI-Framework generiert parallele Daten aus ungelabelten Texten, indem ein „Fixer“ ungrammatikalische Sätze in grammatikalisch korrekte umwandelt und ein „Critic“ die Grammatikalität von Sätzen vorhersagt. Wir präsentieren einen unsupervisierten Ansatz zur Erstellung des Fixers und des Critics sowie einen Algorithmus, der es beiden Komponenten ermöglicht, sich iterativ gegenseitig zu verbessern. Wir evaluieren unser unsupervisiertes GEC-System anhand deutscher und chinesischer GEC-Aufgaben. Experimentelle Ergebnisse zeigen, dass unser GEC-System frühere unsupervisierte GEC-Systeme übertrifft und Leistung erzielt, die mit supervisierten GEC-Systemen ohne Ensembles vergleichbar ist. Zudem erreicht unser System, wenn es mit gelabelten Trainingsdaten kombiniert wird, neue SOTA-Ergebnisse auf den Testsets des CoNLL-2014 und NLPCC-2018.