ChineseWebText 중국어 웹 텍스트 데이터 세트
ChineseWebText는 1.42TB의 데이터를 담고 있는 최신이자 가장 큰 중국어 데이터 세트입니다.각 텍스트에는 품질 점수가 할당되어 대규모 언어 모델 연구자가 새로운 품질 임계값을 기준으로 데이터를 더 쉽게 선택할 수 있습니다. 90%보다 품질이 더 좋고 600GB의 중국어 텍스트를 담은 더 깔끔한 하위 세트도 여기에 공개되었습니다. 이 디렉토리에는 ChineseWebText 데이터 세트와 CommonCrawl 데이터 처리를 위한 EvalWeb 툴체인이 포함되어 있습니다.
ChineseWebText.torrent
시딩 1다운로드 중 1완료됨 103총 다운로드 횟수 279