HyperAIHyperAI
vor 2 Monaten

FCGEC: Fein granulierter Korpus für die chinesische grammatische Fehlerkorrektur

Lvxiaowei Xu; Jianwang Wu; Jiawei Peng; Jiayu Fu; Ming Cai
FCGEC: Fein granulierter Korpus für die chinesische grammatische Fehlerkorrektur
Abstract

Die Korrektur grammatikalischer Fehler (GEC) wird in letzter Zeit weitgehend in automatischen Korrektur- und Revisionsystemen eingesetzt. Allerdings ist die chinesische GEC aufgrund der begrenzten hochwertigen Daten von Muttersprachlern hinsichtlich Kategorie und Umfang noch unzureichend entwickelt. In dieser Arbeit stellen wir FCGEC vor, ein feingranuläres Korpus zur Erkennung, Identifikation und Korrektur grammatikalischer Fehler. FCGEC ist ein menschlich annotiertes Korpus mit mehreren Referenzen, das hauptsächlich aus 41.340 Sätzen aus Multiple-Choice-Fragen in öffentlichen Schulprüfungen im Chinesischen besteht. Des Weiteren schlagen wir ein Switch-Tagger-Generator (STG)-Basismodell vor, um grammatikalische Fehler in Ressourcenarmen Szenarien zu korrigieren. Im Vergleich zu anderen GEC-Benchmark-Modellen zeigen experimentelle Ergebnisse, dass STG unseres FCGEC überlegen ist. Dennoch besteht ein erheblicher Unterschied zwischen den Benchmark-Modellen und Menschen, der zukünftige Modelle dazu anregt, diese Lücke zu schließen.

FCGEC: Fein granulierter Korpus für die chinesische grammatische Fehlerkorrektur | Neueste Forschungsarbeiten | HyperAI