MiniMind 大模型训练微调数据集
MiniMind 是一个开源的轻量级大语言模型项目,旨在降低大语言模型 (LLM) 的使用门槛,使个人用户能够在普通设备上快速训练和推理。
MiniMind 包含了多个数据集,例如用于训练分词器的 tokenizer 训练集、用于预训练模型的 Pretrain 数据、用于监督式微调的 SFT 数据、以及用于训练奖励模型的 DPO 数据 1 和 DPO 数据 2 。这些数据集整合自不同的来源,例如匠数科技 SFT 数据、 Qwen2.5 蒸馏数据等,总量大约在 3B token,适合中文大语言模型的预训练。
minimind_dataset.torrent
做种 1正在下载 1已完成 23总下载次数 38