ChID 대규모 중국어 관용구 데이터 세트
풍부한 코퍼스가 부족하기 때문에 중국어 빈칸 채우기 기반 독해 능력에 대한 연구는 아직 제한적입니다. ChID(Chinese Idiom Dataset)는 중국어의 독특한 언어 현상인 관용어에 대한 이해력을 연구하는 데 사용되는 대규모 중국어 빈칸 채우기 테스트 데이터 세트입니다. 이 자료집에서는 기사 속 관용어가 공백 기호로 대체되었으며, 신중하게 설계된 후보 관용어에서 정답을 선택해야 합니다.
이 데이터 세트에는 581,000개의 문단과 729,000개의 빈칸이 포함되어 있으며, 여러 도메인을 포괄합니다. ChID에서는 문단의 관용구가 공백으로 대체됩니다. 각 빈칸에는 황금 관용어를 포함한 후보 관용어 목록이 선택 항목으로 제공됩니다.
ChID.torrent
시딩 2다운로드 중 0완료됨 130총 다운로드 횟수 152