HyperAI초신경

FCGEC 중국어 문법 오류 감지 및 수정 데이터 세트

날짜

일 년 전

크기

15.51 MB

기관

저장대학교

발행 주소

github.com

라이선스

非商业用途

FCGEC는 중국어 문법 오류 수정을 위한 세분화된 코퍼스(Fine-Grained Corpus for Chinese Grammatical Error Correction)의 약자입니다. 이는 모국어 화자가 작성한 대규모 다중 참조 텍스트 오류 수정 코퍼스입니다.  오류 정정 모델 시스템을 훈련하고 평가하는 데 사용되는 데이터 소스는 주로 초등, 중등, 고등학생의 틀린 문장 시험 문제와 뉴스 수집 웹사이트입니다.

다양한 주석 목표를 달성하기 위해 문장에 대한 더 많은 참조 수정 방법을 제공하기 위해, 각 문장은 주석을 위해 2~4명의 주석자에게 무작위로 할당됩니다.우리는 두 개의 데이터 소스로부터 54,026개의 원본 문장을 수집했습니다. 중복된 문장을 제거하고 문제가 있는 문장(예: 텍스트 잘림)을 걸러낸 후, FCGEC에는 총 41,340개의 문장이 포함되었습니다.

FCGEC.torrent
시딩 1다운로드 중 1완료됨 125총 다운로드 횟수 405
  • FCGEC/
    • README.md
      1.33 KB
    • README.txt
      2.65 KB
      • data/
        • FCGEC_test.json
          815.18 KB
        • FCGEC_train.json
          14.73 MB
        • FCGEC_valid.json
          15.51 MB