HyperAIHyperAI
vor 11 Tagen

GECToR -- Grammatikfehlerkorrektur: Taggen, nicht Umformulieren

Kostiantyn Omelianchuk, Vitaliy Atrasevych, Artem Chernodub, Oleksandr Skurzhanskyi
GECToR -- Grammatikfehlerkorrektur: Taggen, nicht Umformulieren
Abstract

In diesem Paper präsentieren wir einen einfachen und effizienten GEC-Sequenz-Tagger, der einen Transformer-Encoder nutzt. Unser System wird zunächst auf synthetischen Daten vortrainiert und anschließend in zwei Stufen feinabgestimmt: zunächst auf fehlerbehafteten Korpora und danach auf einer Kombination aus fehlerbehafteten und fehlerfreien parallelen Korpora. Wir entwickeln maßgeschneiderte tokenbasierte Transformationen, um Eingabetokens auf Zielkorrekturen abzubilden. Der beste Einzelmodell-/Ensemble-GEC-Tagger erreicht eine $F_{0.5}$-Wert von 65,3/66,5 auf CoNLL-2014 (Test) und eine $F_{0.5}$-Wert von 72,4/73,6 auf BEA-2019 (Test). Die Inferenzgeschwindigkeit liegt bis zu zehnmal höher als die eines Transformer-basierten Seq2Seq-GEC-Systems. Der Quellcode und die trainierten Modelle sind öffentlich verfügbar.

GECToR -- Grammatikfehlerkorrektur: Taggen, nicht Umformulieren | Neueste Forschungsarbeiten | HyperAI