SynGEC: Syntax-verstärkte Korrektur grammatikalischer Fehler mit einem angepassten GEC-orientierten Parser

Diese Arbeit schlägt einen syntaxverstärkten Ansatz zur grammatischen Fehlerkorrektur (GFC) vor, der als SynGEC bezeichnet wird und abhängigkeitsgrammatische Informationen effektiv in den Encoder-Teil von GFC-Modellen einbindet. Die Haupt Herausforderung bei diesem Ansatz besteht darin, dass herkömmliche Parser bei der Verarbeitung ungrammatischer Sätze nicht verlässlich sind. Um dieser Herausforderung zu begegnen, schlagen wir die Entwicklung eines auf GFC ausgerichteten Parsers (GOPar) vor, der mithilfe paralleler GFC-Trainingsdaten erstellt wird. Zunächst entwerfen wir ein erweitertes Syntaxrepräsentationsschema, das es uns ermöglicht, sowohl grammatische Fehler als auch Syntax in einer einheitlichen Baumstruktur darzustellen. Anschließend erhalten wir die Parse-Bäume der Quellensätze mit Fehlern durch Projektion der Bäume der korrekten Zielsätze. Schließlich trainieren wir GOPar mit diesen projizierten Bäumen. Für die GFC verwenden wir ein Graph Convolution Network (GCN), um die vom GOPar erzeugten syntaktischen Informationen auf der Quellenseite zu kodieren, und fusionieren diese mit den Ausgaben des Transformer-Encoders. Experimente mit gängigen englischen und chinesischen GFC-Datensätzen zeigen, dass unser vorgeschlagener SynGEC-Ansatz konsistent und erheblich stärker als starke Baseline-Modelle performt und wettbewerbsfähige Ergebnisse erzielt. Unser Code und unsere Daten sind öffentlich verfügbar unter https://github.com/HillZhang1999/SynGEC.请注意,我已将“grammatical error correction”翻译为“grammatische Fehlerkorrektur”(简称GFC),这是德语中常用的术语。其他专业术语也尽可能采用了通用译法。如果您有特定的术语偏好,请告知我以便进一步调整。