FCGEC 중국어 문법 오류 감지 및 수정 데이터 세트
FCGEC는 중국어 문법 오류 수정을 위한 세분화된 코퍼스(Fine-Grained Corpus for Chinese Grammatical Error Correction)의 약자입니다. 이는 모국어 화자가 작성한 대규모 다중 참조 텍스트 오류 수정 코퍼스입니다. 오류 정정 모델 시스템을 훈련하고 평가하는 데 사용되는 데이터 소스는 주로 초등, 중등, 고등학생의 틀린 문장 시험 문제와 뉴스 수집 웹사이트입니다.
다양한 주석 목표를 달성하기 위해 문장에 대한 더 많은 참조 수정 방법을 제공하기 위해, 각 문장은 주석을 위해 2~4명의 주석자에게 무작위로 할당됩니다.우리는 두 개의 데이터 소스로부터 54,026개의 원본 문장을 수집했습니다. 중복된 문장을 제거하고 문제가 있는 문장(예: 텍스트 잘림)을 걸러낸 후, FCGEC에는 총 41,340개의 문장이 포함되었습니다.
FCGEC.torrent
시딩 1다운로드 중 1완료됨 125총 다운로드 횟수 405