QwQ-LongCoT-130K 微调数据集

日期

3 个月前

大小

357.27 MB

QwQ-LongCoT-130K 数据集是一个专为训练类似 O1 这样的大语言模型 (LLMs) 而设计的 SFT (Supervised Fine-Tuning) 数据集。数据集的特点在于它专注于长链式思考 (chain-of-thought) 推理,这意味着它不仅仅追求生成长文本响应,而是更注重于生成的响应能够展现出深入的思考过程和逻辑推理。这个数据集包含了大约 130,000 个实例,每个实例都是使用 QwQ-32B-Preview 模型生成的响应。

QwQ-LongCoT-130K 数据集由大约 90,000 个来自 NuminaMath 的样本和大约 43,000 个通过 Magpie 生成的样本组成。数据集的创建者计划在找到更多计算资源后,添加更多的 Magpie 数据。此外,QwQ-LongCoT-130K 数据集在长度分布上与 Magpie-Ultra 的 top_300k_longer_conversations 子集相比,包含更长的实例。

在构建 QwQ-LongCoT-130K 数据集时,面临的挑战之一是如何策划出真正值得进行长链式思考推理的种子指令。数据集的创建者不希望生成的响应只是简单的问题,比如「天空是什么颜色?」,同时也希望这些响应能够避免版权问题。因此,数据集的种子指令是通过两种方法收集的:一部分数据来源于 NuminaMath-CoT 数据集,该数据集包含了 860,000 个数学问题及其答案,另一部分则是通过 Magpie 方法从 QwQ-32B-Preview 模型中提取问题。

QwQ-LongCoT-130K.torrent

做种 1

下载中 0

已完成 58

总下载 76

  • QwQ-LongCoT-130K/
    • README.md
      2.08 KB
    • README.txt
      4.16 KB
      • data/
        • QwQ-LongCoT-.zip
          357.27 MB