Effiziente und interpretierbare grammatische Fehlerkorrektur mit Mixture of Experts

Fehlerartinformation wurde weit verbreitet eingesetzt, um die Leistung von Grammatikfehlerkorrektur (GEC)-Modellen zu verbessern, sei es zur Generierung von Korrekturen, zur Nachrangordnung dieser oder zur Kombination von GEC-Modellen. Die Kombination von GEC-Modellen, die sich in der Korrektur unterschiedlicher Fehlerarten gegenseitig ergänzen, erweist sich als besonders effektiv bei der Erzeugung hochwertiger Korrekturen. Allerdings birgt die Systemkombination aufgrund der Notwendigkeit, Inferenz auf den Basis-Systemen durchzuführen, bevor die Kombinationsmethode selbst ausgeführt wird, einen hohen rechnerischen Aufwand. Daher wäre es effizienter, ein einzelnes Modell mit mehreren Unter-Netzwerken zu verwenden, das jeweils auf die Korrektur spezifischer Fehlerarten spezialisiert ist. In diesem Artikel stellen wir ein Mixture-of-Experts-Modell, MoECE, für die Grammatikfehlerkorrektur vor. Unser Modell erreicht die Leistung von T5-XL mit lediglich einem Drittel der effektiven Parameter. Zudem liefert unser Modell interpretierbare Korrekturen, da es während der Inferenz zusätzlich die Fehlerart identifiziert.