HyperAI초신경

MiniMind는 대규모 언어 모델(LLM) 사용에 대한 임계값을 낮추고 개별 사용자가 일반 장치에서 빠르게 학습하고 추론할 수 있도록 하는 것을 목표로 하는 오픈 소스 경량 대규모 언어 모델 프로젝트입니다.

MiniMind에는 단어 분할기를 훈련하기 위한 토크나이저 훈련 세트, 모델을 사전 훈련하기 위한 Pretrain 데이터, 지도 미세 조정을 위한 SFT 데이터, 보상 모델을 훈련하기 위한 DPO 데이터 1과 DPO 데이터 2 등 여러 데이터 세트가 포함되어 있습니다. 이러한 데이터 세트는 Jiangshu Technology의 SFT 데이터, Qwen2.5 정제 데이터 등 다양한 소스에서 통합되었으며, 총 약 30억 개의 토큰으로 구성되어 대규모 중국어 모델의 사전 학습에 적합합니다.