이 데이터셋 사용 Discord에서 논의하기

날짜

4달 전

라이선스

Apache 2.0

태그

Sutra 10B Pretraining은 대규모 언어 모델 사전 학습을 위한 고품질 교육용 데이터셋입니다. Sutra 프레임워크를 사용하여 생성된 이 데이터셋은 구조화된 교육 콘텐츠를 제공하고 언어 모델의 사전 학습을 최적화합니다. Sutra 시리즈 중 가장 큰 규모의 이 데이터셋은 밀도 높고 잘 선별된 데이터셋이 소규모 언어 모델에 최적의 사전 학습 성능을 제공할 수 있음을 보여주기 위해 설계되었습니다. 이 데이터 세트는 총 10,193,029개의 수업 기록(100억 개 이상의 토큰)을 포함하며, 융합 교육, 기술, 과학, 사회, 수학, 생활 기술, 예술 및 창의성, 언어 예술, 철학 및 윤리 등 9개 주요 영역을 다룹니다. 데이터는 기초부터 고급까지 10단계 난이도로 구성된 잘 정립된 교육 패러다임을 따르며, 체계적인 계층 구조를 보여줍니다.

이 데이터셋은 커뮤니티 사용자가 기여한 것이며 교육 및 정보 제공 목적으로만 사용됩니다. 저작권 침해와 관련된 콘텐츠가 있는 경우 [email protected]로 문의하시면 신속하게 검토 및 삭제 처리하겠습니다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

이 데이터셋 사용 Discord에서 논의하기

날짜

4달 전

라이선스

Apache 2.0

태그

Sutra 10B Pretraining은 대규모 언어 모델 사전 학습을 위한 고품질 교육용 데이터셋입니다. Sutra 프레임워크를 사용하여 생성된 이 데이터셋은 구조화된 교육 콘텐츠를 제공하고 언어 모델의 사전 학습을 최적화합니다. Sutra 시리즈 중 가장 큰 규모의 이 데이터셋은 밀도 높고 잘 선별된 데이터셋이 소규모 언어 모델에 최적의 사전 학습 성능을 제공할 수 있음을 보여주기 위해 설계되었습니다. 이 데이터 세트는 총 10,193,029개의 수업 기록(100억 개 이상의 토큰)을 포함하며, 융합 교육, 기술, 과학, 사회, 수학, 생활 기술, 예술 및 창의성, 언어 예술, 철학 및 윤리 등 9개 주요 영역을 다룹니다. 데이터는 기초부터 고급까지 10단계 난이도로 구성된 잘 정립된 교육 패러다임을 따르며, 체계적인 계층 구조를 보여줍니다.

이 데이터셋은 커뮤니티 사용자가 기여한 것이며 교육 및 정보 제공 목적으로만 사용됩니다. 저작권 침해와 관련된 콘텐츠가 있는 경우 [email protected]로 문의하시면 신속하게 검토 및 삭제 처리하겠습니다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

수트라 10B 사전 훈련 교육 및 훈련 데이터 세트 | 데이터 세트 | HyperAI초신경