HyperAI
Command Palette
Search for a command to run...
ChineseWebText 중국어 웹 텍스트 데이터 세트
**ChineseWebText는 1.42TB의 데이터를 담고 있는 최신이자 가장 큰 중국어 데이터 세트입니다.**각 텍스트에는 품질 점수가 할당되어 대규모 언어 모델 연구자가 새로운 품질 임계값을 기준으로 데이터를 더 쉽게 선택할 수 있습니다. 90%보다 품질이 더 좋고 600GB의 중국어 텍스트를 담은 더 깔끔한 하위 세트도 여기에 공개되었습니다. 이 디렉토리에는 ChineseWebText 데이터 세트와 CommonCrawl 데이터 처리를 위한 EvalWeb 툴체인이 포함되어 있습니다.
ChineseWebText.torrent
시딩 0다운로드 중 1완료됨 234총 다운로드 수 532
이 데이터셋은 커뮤니티 사용자가 기여한 것이며 교육 및 정보 제공 목적으로만 사용됩니다. 저작권 침해와 관련된 콘텐츠가 있는 경우 [email protected]로 문의하시면 신속하게 검토 및 삭제 처리하겠습니다.