Grammatikalische Fehlerkorrektur in Szenarien mit geringen Ressourcen

Die Korrektur grammatischer Fehler im Englischen ist ein seit langem untersuchtes Problem mit zahlreichen bestehenden Systemen und Datensätzen. Allerdings gibt es bisher nur begrenzte Forschung zur Fehlerkorrektur anderer Sprachen. In diesem Paper stellen wir einen neuen Datensatz AKCES-GEC für die grammatische Fehlerkorrektur im Tschechischen vor. Anschließend führen wir Experimente am Tschechischen, Deutschen und Russischen durch und zeigen, dass mit der Nutzung eines synthetischen parallelen Korpus der Transformer-Neuronale-Übersetzungsmodell neue SOTA-Ergebnisse auf diesen Datensätzen erzielt. AKCES-GEC wird unter der Lizenz CC BY-NC-SA 4.0 unter https://hdl.handle.net/11234/1-3057 veröffentlicht, und der Quellcode des GEC-Modells ist unter https://github.com/ufal/low-resource-gec-wnut2019 verfügbar.