Command Palette

Search for a command to run...

MiniMind 대규모 모델 학습 미세 조정 데이터 세트

날짜

8달 전

크기

8.08 GB

발행 주소

github.com

MiniMind는 대규모 언어 모델(LLM) 사용에 대한 임계값을 낮추고 개별 사용자가 일반 장치에서 빠르게 학습하고 추론할 수 있도록 하는 것을 목표로 하는 오픈 소스 경량 대규모 언어 모델 프로젝트입니다.

MiniMind에는 단어 분할기를 훈련하기 위한 토크나이저 훈련 세트, 모델을 사전 훈련하기 위한 Pretrain 데이터, 지도 미세 조정을 위한 SFT 데이터, 보상 모델을 훈련하기 위한 DPO 데이터 1과 DPO 데이터 2 등 여러 데이터 세트가 포함되어 있습니다. 이러한 데이터 세트는 Jiangshu Technology의 SFT 데이터, Qwen2.5 정제 데이터 등 다양한 소스에서 통합되었으며, 총 약 30억 개의 토큰으로 구성되어 대규모 중국어 모델의 사전 학습에 적합합니다.

minimind_dataset.torrent
시딩 1다운로드 중 0완료됨 105총 다운로드 횟수 182
  • minimind_dataset/
    • README.md
      1.31 KB
    • README.txt
      2.63 KB
      • data/
        • minimind_dataset.zip
          8.08 GB

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp