Ein neurales grammatisches Fehlerkorrektursystem, aufbauend auf verbessertem Vortraining und sequentiellen Transferlearning

Die Korrektur grammatikalischer Fehler kann als eine sequenzbasierte Aufgabe mit begrenzten Ressourcen betrachtet werden, da öffentlich verfügbare parallele Korpora limitiert sind. Um dieser Herausforderung zu begegnen, erzeugen wir zunächst fehlerhafte Versionen großer unannotierter Korpora mithilfe einer realistischen Störungsfunktion (noising function). Die resultierenden parallelen Korpora werden anschließend verwendet, um Transformer-Modelle vorzutrainieren. Danach passen wir diese Modelle durch sequenzielles Transferlernen an das Domänen- und Stilverhalten des Testsets an. In Kombination mit einem kontextsensitiven neuronalen Rechtschreibprüfer erreicht unser System wettbewerbsfähige Ergebnisse sowohl in den eingeschränkten als auch in den ressourcenarmen Tracks der ACL 2019 BEA Shared Task. Wir stellen unseren gesamten Code und alle Materialien zur Verfügung, um die Reproduzierbarkeit unserer Arbeit sicherzustellen.