HyperAI초신경

ChID 대규모 중국어 관용구 데이터 세트

날짜

일 년 전

크기

328.62 MB

기관

칭화대학교

발행 주소

github.com

풍부한 코퍼스가 부족하기 때문에 중국어 빈칸 채우기 기반 독해 능력에 대한 연구는 아직 제한적입니다. ChID(Chinese Idiom Dataset)는 중국어의 독특한 언어 현상인 관용어에 대한 이해력을 연구하는 데 사용되는 대규모 중국어 빈칸 채우기 테스트 데이터 세트입니다. 이 자료집에서는 기사 속 관용어가 공백 기호로 대체되었으며, 신중하게 설계된 후보 관용어에서 정답을 선택해야 합니다.

이 데이터 세트에는 581,000개의 문단과 729,000개의 빈칸이 포함되어 있으며, 여러 도메인을 포괄합니다. ChID에서는 문단의 관용구가 공백으로 대체됩니다. 각 빈칸에는 황금 관용어를 포함한 후보 관용어 목록이 선택 항목으로 제공됩니다.

ChID.torrent
시딩 2다운로드 중 0완료됨 130총 다운로드 횟수 152
  • ChID/
    • README.md
      1.34 KB
    • README.txt
      2.68 KB
      • data/
        • chid.zip
          328.62 MB