Command Palette
Search for a command to run...
수트라 10B 사전 훈련 교육 및 훈련 데이터 세트
Sutra 10B Pretraining은 대규모 언어 모델 사전 학습을 위한 고품질 교육용 데이터셋입니다. Sutra 프레임워크를 사용하여 생성된 이 데이터셋은 구조화된 교육 콘텐츠를 제공하고 언어 모델의 사전 학습을 최적화합니다. Sutra 시리즈 중 가장 큰 규모의 이 데이터셋은 밀도 높고 잘 선별된 데이터셋이 소규모 언어 모델에 최적의 사전 학습 성능을 제공할 수 있음을 보여주기 위해 설계되었습니다. 이 데이터 세트는 총 10,193,029개의 수업 기록(100억 개 이상의 토큰)을 포함하며, 융합 교육, 기술, 과학, 사회, 수학, 생활 기술, 예술 및 창의성, 언어 예술, 철학 및 윤리 등 9개 주요 영역을 다룹니다. 데이터는 기초부터 고급까지 10단계 난이도로 구성된 잘 정립된 교육 패러다임을 따르며, 체계적인 계층 구조를 보여줍니다.