HyperAIHyperAI

Command Palette

Search for a command to run...

수트라 10B 사전 훈련 교육 및 훈련 데이터 세트

날짜

2달 전

라이선스

Apache 2.0

Sutra 10B Pretraining은 대규모 언어 모델 사전 학습을 위한 고품질 교육용 데이터셋입니다. Sutra 프레임워크를 사용하여 생성된 이 데이터셋은 구조화된 교육 콘텐츠를 제공하고 언어 모델의 사전 학습을 최적화합니다. Sutra 시리즈 중 가장 큰 규모의 이 데이터셋은 밀도 높고 잘 선별된 데이터셋이 소규모 언어 모델에 최적의 사전 학습 성능을 제공할 수 있음을 보여주기 위해 설계되었습니다. 이 데이터 세트는 총 10,193,029개의 수업 기록(100억 개 이상의 토큰)을 포함하며, 융합 교육, 기술, 과학, 사회, 수학, 생활 기술, 예술 및 창의성, 언어 예술, 철학 및 윤리 등 9개 주요 영역을 다룹니다. 데이터는 기초부터 고급까지 10단계 난이도로 구성된 잘 정립된 교육 패러다임을 따르며, 체계적인 계층 구조를 보여줍니다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩
바로 사용 가능한 GPU
최적의 가격

HyperAI Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp