CCI 중국 인터넷 코퍼스
대규모 언어 모델의 급속한 발전으로 인해 업계와 학계에서 고품질 데이터 세트에 대한 수요가 계속해서 증가하고 있습니다. 이러한 데이터 세트는 방대한 양의 정보를 포함해야 할 뿐만 아니라, 정확성과 다운스트림 모델 및 애플리케이션의 보안을 보장하기 위해 엄격하게 검토하고 정리해야 합니다. 그러나 현재 업계에서 인기 있는 공개 데이터 세트는 품질과 보안 측면에서 일정한 위험을 안고 있습니다. 특히 고품질 데이터 세트가 매우 부족한 중국 분야에서는 더욱 그렇습니다. 게다가 안전한 중국어 데이터 세트를 구축하는 데는 많은 어려움이 있습니다. 따라서 엄격하게 선별되고 표준화된 데이터 세트를 구축하는 것은 LLM의 혁신과 개발에 특히 중요합니다.
중국 인터넷 기업(CCI)중국 본토 인터넷 웹사이트의 고품질이고 신뢰할 수 있는 출처로 구성되어 있습니다. CCI는 엄격한 데이터 정리 및 중복 제거를 거치고, 콘텐츠 품질에 대한 타깃 테스트와 필터링을 실시합니다. 데이터 처리 규칙에는 다음이 포함됩니다.
- 규칙 기반 필터링: 밀도 기반 추출, 키워드 필터링, 스팸 필터링, 간체 및 번체 중국어 변환 등
- 모델 기반 필터링: 분류 모델을 훈련하여 품질이 낮은 콘텐츠를 필터링합니다.
- 중복 제거: 데이터 세트 내부 및 데이터 세트 간 데이터 중복 제거.
또한, 사전 학습 데이터의 규모가 방대하여 평가 데이터 유출이 쉽게 발생할 수 있는 문제를 해결하기 위해 연구팀은 데이터 처리 단계에서 중국의 주요 평가 데이터 세트 몇 가지에 대한 엄격한 선별 및 필터링을 수행했습니다.
공개된 CCI 코퍼스(CCI v1.0.0)의 크기는 104GB입니다. 데이터 세트의 전체 기간은 2001년 1월부터 2023년 11월까지입니다.