HyperAI

FCGEC-Datensatz Zur Erkennung Und Korrektur Chinesischer Grammatikfehler

Datum

vor einem Jahr

Größe

15.51 MB

Organisation

Zhejiang-Universität

Veröffentlichungs-URL

github.com

Lizenz

非商业用途

FCGEC steht für Fine-Grained Corpus for Chinese Grammatical Error Correction. Es handelt sich um ein umfangreiches, mehrreferenziertes Textfehlerkorrekturkorpus von Muttersprachlern.  Die Datenquelle wird zum Trainieren und Bewerten des Fehlerkorrekturmodellsystems verwendet und besteht hauptsächlich aus Testfragen zu falschen Sätzen von Grund-, Mittel- und Oberstufenschülern sowie aus Nachrichtenaggregations-Websites.

Um mehr Methoden zur Referenzänderung für Sätze bereitzustellen und so unterschiedliche Annotationsziele zu erreichen, wird jeder Satz zufällig 2–4 Annotatoren zur Annotation zugewiesen.Wir haben 54.026 Originalsätze aus zwei Datenquellen gesammelt. Nach dem Entfernen doppelter Sätze und dem Herausfiltern problematischer Sätze (wie z. B. abgeschnittener Texte) enthält FCGEC insgesamt 41.340 Sätze.

FCGEC.torrent
Seeding 1Herunterladen 1Abgeschlossen 125Gesamtdownloads 405
  • FCGEC/
    • README.md
      1.33 KB
    • README.txt
      2.65 KB
      • data/
        • FCGEC_test.json
          815.18 KB
        • FCGEC_train.json
          14.73 MB
        • FCGEC_valid.json
          15.51 MB