공통 코퍼스-zh 중국어 공개 도메인 데이터 세트
Common Corpus는 플레이아스, 허깅페이스 및 기타 조직이 공동으로 만들었습니다.이는 현재 이용 가능한 가장 큰 규모의 퍼블릭 도메인 데이터 세트입니다.대규모 언어 모델(LLM)을 훈련하기 위해 특별히 설계되었습니다.이 데이터 세트에는 전 세계 다양한 문화 유산 프로젝트에서 수집된 5,000억 개의 단어가 포함되어 있습니다.여기에는 영어, 프랑스어, 중국어, 스페인어, 독일어, 이탈리아어 등 여러 언어가 포함되어 있으며, 지금까지 가장 포괄적인 언어 리소스 라이브러리입니다.
여기에는 현재까지 가장 큰 규모의 영어 데이터 세트가 포함되어 있으며, 1,800억 단어, 미국의 주요 디지털 신문 프로젝트인 Chronicling America의 2,100만 개의 문서, Nomic AI 원본 코퍼스 맵, Sebastian Majstorovic이 수집한 전문서적 데이터가 포함됩니다. 또한 Common Corpus에는 프랑스어(1,100억 단어), 독일어(300억 단어), 스페인어, 네덜란드어, 이탈리아어에 대한 가장 큰 오픈 데이터 세트가 포함되어 있으며, 대규모 언어 모델을 훈련하는 데 거의 사용되지 않는 자원이 부족한 일부 언어도 포함됩니다.
이 데이터 세트의 출시는 Common Crawl과 같은 저작권이 제한된 콘텐츠에 의존하지 않고도 LLM을 훈련할 수 있음을 보여줍니다. 강력한 AI 데이터 공유 플랫폼을 구축하고, 연구 과정을 간소화하며, 연구의 재현성을 높이고, AI의 대중화, 다양성, 민주화를 촉진하며, 대규모 모델의 지식 보급과 적용을 보장하는 것을 목표로 합니다.