Neurale grammatische Fehlerkorrektur als maschinelle Übersetzaufgabe mit geringen Ressourcen

Bisher erreichten neuronale Methoden in der grammatischen Fehlerkorrektur (GEC) im Vergleich zu phrasenbasierten statistischen Maschinelle Übersetzung (SMT)-Baselines keine Spitzenleistungen. Wir zeigen Parallelen zwischen neuronalen GEC und ressourcenarmen neuronalen Maschinellen Übersetzungen auf und können mehrere Methoden aus dem Bereich ressourcenarmer MT erfolgreich auf neuronale GEC anwenden. Des Weiteren legen wir Richtlinien für vertrauenswürdige Ergebnisse in der neuronalen GEC fest und schlagen eine Reihe von modellunabhängigen Methoden für neuronale GEC vor, die in den meisten GEC-Einstellungen leicht angewendet werden können. Zu den vorgeschlagenen Methoden gehören das Hinzufügen von Rauschen auf der Quellenseite, Domänenanpassungstechniken, ein spezifisches Trainingsziel für GEC, Transferlernen mit mono-lingualen Daten sowie das Ensemble unabhängig trainierter GEC-Modelle und Sprachmodelle. Die kombinierten Effekte dieser Methoden führen zu besseren als Stand der Technik darstellenden neuronalen GEC-Modellen, die frühere beste neurale GEC-Systeme um mehr als 10% M$^2$ auf dem CoNLL-2014-Benchmark und um 5,9% auf dem JFLEG-Testset übertreffen. Nicht-neuronale Systeme des Standes der Technik werden außerdem um mehr als 2% auf dem CoNLL-2014-Benchmark und um 4% auf JFLEG übertroffen.