FCGEC-Datensatz Zur Erkennung Und Korrektur Chinesischer Grammatikfehler
Datum
Größe
Veröffentlichungs-URL
Lizenz
非商业用途
Kategorien
FCGEC steht für Fine-Grained Corpus for Chinese Grammatical Error Correction. Es handelt sich um ein umfangreiches, mehrreferenziertes Textfehlerkorrekturkorpus von Muttersprachlern. Die Datenquelle wird zum Trainieren und Bewerten des Fehlerkorrekturmodellsystems verwendet und besteht hauptsächlich aus Testfragen zu falschen Sätzen von Grund-, Mittel- und Oberstufenschülern sowie aus Nachrichtenaggregations-Websites.
Um mehr Methoden zur Referenzänderung für Sätze bereitzustellen und so unterschiedliche Annotationsziele zu erreichen, wird jeder Satz zufällig 2–4 Annotatoren zur Annotation zugewiesen.Wir haben 54.026 Originalsätze aus zwei Datenquellen gesammelt. Nach dem Entfernen doppelter Sätze und dem Herausfiltern problematischer Sätze (wie z. B. abgeschnittener Texte) enthält FCGEC insgesamt 41.340 Sätze.