HyperAI

Common Corpus는 플레이아스, 허깅페이스 및 기타 조직이 공동으로 만들었습니다.이는 현재 이용 가능한 가장 큰 규모의 퍼블릭 도메인 데이터 세트입니다.대규모 언어 모델(LLM)을 훈련하기 위해 특별히 설계되었습니다.이 데이터 세트에는 전 세계 다양한 문화 유산 프로젝트에서 수집된 5,000억 개의 단어가 포함되어 있습니다.여기에는 영어, 프랑스어, 중국어, 스페인어, 독일어, 이탈리아어 등 여러 언어가 포함되어 있으며, 지금까지 가장 포괄적인 언어 리소스 라이브러리입니다.

여기에는 현재까지 가장 큰 규모의 영어 데이터 세트가 포함되어 있으며, 1,800억 단어, 미국의 주요 디지털 신문 프로젝트인 Chronicling America의 2,100만 개의 문서, Nomic AI 원본 코퍼스 맵, Sebastian Majstorovic이 수집한 전문서적 데이터가 포함됩니다. 또한 Common Corpus에는 프랑스어(1,100억 단어), 독일어(300억 단어), 스페인어, 네덜란드어, 이탈리아어에 대한 가장 큰 오픈 데이터 세트가 포함되어 있으며, 대규모 언어 모델을 훈련하는 데 거의 사용되지 않는 자원이 부족한 일부 언어도 포함됩니다.

공통 코퍼스-zh 중국어 공개 도메인 데이터 세트

AI로 AI 구축

Hyper Newsletters

Command Palette

공통 코퍼스-zh 중국어 공개 도메인 데이터 세트

AI로 AI 구축

Hyper Newsletters