HyperAI초신경

ChineseWebText 중국어 웹 텍스트 데이터 세트

날짜

일 년 전

크기

398.86 GB

발행 주소

huggingface.co

ChineseWebText는 1.42TB의 데이터를 담고 있는 최신이자 가장 큰 중국어 데이터 세트입니다.각 텍스트에는 품질 점수가 할당되어 대규모 언어 모델 연구자가 새로운 품질 임계값을 기준으로 데이터를 더 쉽게 선택할 수 있습니다. 90%보다 품질이 더 좋고 600GB의 중국어 텍스트를 담은 더 깔끔한 하위 세트도 여기에 공개되었습니다. 이 디렉토리에는 ChineseWebText 데이터 세트와 CommonCrawl 데이터 처리를 위한 EvalWeb 툴체인이 포함되어 있습니다.

ChineseWebText.torrent
시딩 1다운로드 중 1완료됨 103총 다운로드 횟수 279
  • ChineseWebText/
    • README.md
      1.16 KB
    • README.txt
      2.32 KB
      • data/
        • C-webtexet.zip
          398.86 GB