Ensembling und Knowledge Distilling großer Sequenz-Tagger für die grammatische Fehlerkorrektur

In diesem Paper untersuchen wir Verbesserungen der GEC-Sequenzmarkierungsarchitektur mit besonderem Fokus auf die Ensemble-Bildung moderner, state-of-the-art Transformer-basierter Encoder in großen Konfigurationen. Wir fördern die Ensemble-Bildung durch Mehrheitsentscheidungen auf der Ebene von Korrekturabschnitten (span-level edits), da dieser Ansatz robust gegenüber Unterschieden in der Modellarchitektur und der Vokabulargröße ist. Unser bestes Ensemble erreicht eine neue SOTA-Leistung mit einem $F_{0.5}$-Score von 76,05 auf BEA-2019 (Test), selbst ohne Vortrainings auf synthetischen Datensätzen. Zudem führen wir Knowledge Distillation mit einem trainierten Ensemble durch, um neue synthetische Trainingsdatensätze, „Troy-Blogs“ und „Troy-1BW“, zu generieren. Unser bestes einzelnes Sequenzmarkierungsmodell, das auf den generierten Troy-Datensätzen sowie dem öffentlich verfügbaren synthetischen PIE-Datensatz vortrainiert wurde, erreicht eine nahezu SOTA-Leistung (zum gegenwärtigen Wissensstand ist unser bestes Einzelmodell nur noch von deutlich größeren T5-Modellen mit einem $F_{0.5}$-Score von 73,21 auf BEA-2019 (Test) übertroffen). Der Quellcode, die Datensätze und die trainierten Modelle sind öffentlich verfügbar.