SkyPile-150B 포괄적인 대규모 중국 데이터 세트
SkyPile-150B는 대규모 언어 모델의 사전 학습을 위해 특별히 설계된 포괄적인 대규모 중국어 데이터 세트입니다.이는 공개적으로 접근 가능한 수많은 중국 인터넷 웹페이지에서 발췌한 것입니다. 이 데이터 세트는 엄격한 필터링, 광범위한 중복 제거, 철저한 민감 데이터 필터링을 통해 품질이 보장됩니다. 또한 연구자들은 fastText와 BERT와 같은 고급 도구를 사용하여 품질이 낮은 데이터를 걸러냈습니다.
SkyPile-150B 데이터 세트의 공개 부분에는 약 2억 3,300만 개의 웹 페이지가 포함되어 있으며, 각 페이지에는 평균 1,000개 이상의 중국어 문자가 포함되어 있습니다. 이 데이터 세트에는 총 약 1,500억 개의 토큰과 620GB의 일반 텍스트 데이터가 포함되어 있습니다.