HyperAIHyperAI

Command Palette

Search for a command to run...

MiniMind 大模型训练微调数据集

Date

10 个月前

Size

8.08 GB

Publish URL

github.com

MiniMind 是一个开源的轻量级大语言模型项目,旨在降低大语言模型 (LLM) 的使用门槛,使个人用户能够在普通设备上快速训练和推理。

MiniMind 包含了多个数据集,例如用于训练分词器的 tokenizer 训练集、用于预训练模型的 Pretrain 数据、用于监督式微调的 SFT 数据、以及用于训练奖励模型的 DPO 数据 1 和 DPO 数据 2 。这些数据集整合自不同的来源,例如匠数科技 SFT 数据、 Qwen2.5 蒸馏数据等,总量大约在 3B token,适合中文大语言模型的预训练。

minimind_dataset.torrent
Seeding 1Downloading 0Completed 110Total Downloads 225
  • minimind_dataset/
    • README.md
      1.31 KB
    • README.txt
      2.63 KB
      • data/
        • minimind_dataset.zip
          8.08 GB

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供