FCGEC 中国語文法エラー検出および修正データ セット

日期

1 年前

大小

15.51 MB

机构

浙江大学

发布地址

github.com

许可协议

非商业用途

FCGEC は、Fine-Grained Corpus for Chinese Grammatical Error Correction の略で、大規模なネイティブ スピーカー向けの複数参照テキスト修正コーパスです。  誤り訂正モデルシステムの学習と評価に使用されます。データソースは主に小・中・高校生の誤文テスト問題やニュース集約サイトです。

多様なアノテーションの目標を達成するために、より多くの参照変更方法を文に与えるために、各文はアノテーションのために 2 ~ 4 人のアノテーターにランダムに割り当てられます。2 つのデータ ソースから 54,026 の元の文を収集し、重複を除去して問題のある文 (テキストの切り捨てなど) を除外した後、FCGEC には合計 41,340 の文が含まれていました。

FCGEC.torrent

做种 1

下载中 0

已完成 94

总下载 379

  • FCGEC/
    • README.md
      1.33 KB
    • README.txt
      2.65 KB
      • data/
        • FCGEC_test.json
          815.18 KB
        • FCGEC_train.json
          14.73 MB
        • FCGEC_valid.json
          15.51 MB