日期

1 年前

大小

8.08 GB

发布 URL

标签

MiniMind 是一个开源的轻量级大语言模型项目，旨在降低大语言模型 (LLM) 的使用门槛，使个人用户能够在普通设备上快速训练和推理。 MiniMind 包含了多个数据集，例如用于训练分词器的 tokenizer 训练集、用于预训练模型的 Pretrain 数据、用于监督式微调的 SFT 数据、以及用于训练奖励模型的 DPO 数据 1 和 DPO 数据 2 。这些数据集整合自不同的来源，例如匠数科技 SFT 数据、 Qwen2.5 蒸馏数据等，总量大约在 3B token，适合中文大语言模型的预训练。

minimind_dataset.torrent

做种 1正在下载 0已完成 129总下载量 249

minimind_dataset/
- README.md
  1.31 KB
- README.txt
  2.63 KB

此数据集由社区用户贡献,仅用于教育和信息目的。如有任何内容涉及版权侵权,请通过 [email protected] 联系我们,我们将及时审核并删除。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

HyperAI

使用此数据集

在 Discord 上讨论

日期

1 年前

大小

8.08 GB

发布 URL

标签

minimind_dataset.torrent

做种 1正在下载 0已完成 129总下载量 249

minimind_dataset/
- README.md
  1.31 KB
- README.txt
  2.63 KB

此数据集由社区用户贡献,仅用于教育和信息目的。如有任何内容涉及版权侵权,请通过 [email protected] 联系我们,我们将及时审核并删除。

ToolACE 复杂工具学习对话数据集

2 个月前

Sutra 10B Pretraining 教学训练数据集

2 个月前

zh-meme-sft-8k 中文互联网梗文化数据集

2 个月前

CHIMERA 通用推理合成数据集

3 个月前

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

用 AI 构建 AI

HyperAI Newsletters

相关数据集

ToolACE 复杂工具学习对话数据集

Sutra 10B Pretraining 教学训练数据集

zh-meme-sft-8k 中文互联网梗文化数据集

CHIMERA 通用推理合成数据集

用 AI 构建 AI

HyperAI Newsletters

相关数据集

ToolACE 复杂工具学习对话数据集

Sutra 10B Pretraining 教学训练数据集

zh-meme-sft-8k 中文互联网梗文化数据集

CHIMERA 通用推理合成数据集

用 AI 构建 AI

HyperAI Newsletters

相关数据集

ToolACE 复杂工具学习对话数据集

Sutra 10B Pretraining 教学训练数据集

zh-meme-sft-8k 中文互联网梗文化数据集

CHIMERA 通用推理合成数据集

相关数据集

ToolACE 复杂工具学习对话数据集

Sutra 10B Pretraining 教学训练数据集

zh-meme-sft-8k 中文互联网梗文化数据集

CHIMERA 通用推理合成数据集

Command Palette

MiniMind 大模型训练微调数据集

用 AI 构建 AI

HyperAI Newsletters

Command Palette

MiniMind 大模型训练微调数据集

相关数据集

ToolACE 复杂工具学习对话数据集

Sutra 10B Pretraining 教学训练数据集

zh-meme-sft-8k 中文互联网梗文化数据集

CHIMERA 通用推理合成数据集

用 AI 构建 AI

HyperAI Newsletters

Command Palette

MiniMind 大模型训练微调数据集

相关数据集

ToolACE 复杂工具学习对话数据集

Sutra 10B Pretraining 教学训练数据集

zh-meme-sft-8k 中文互联网梗文化数据集

CHIMERA 通用推理合成数据集

用 AI 构建 AI

HyperAI Newsletters

相关数据集

ToolACE 复杂工具学习对话数据集

Sutra 10B Pretraining 教学训练数据集

zh-meme-sft-8k 中文互联网梗文化数据集

CHIMERA 通用推理合成数据集

相关数据集

ToolACE 复杂工具学习对话数据集

Sutra 10B Pretraining 教学训练数据集

zh-meme-sft-8k 中文互联网梗文化数据集

CHIMERA 通用推理合成数据集