HyperAI超神经

Bespoke Stratos 17k 推理任务数据集

日期

2 个月前

大小

107.46 MB

机构

发布地址

huggingface.co

*该数据集支持在线使用,点击此处跳转

Bespoke-Stratos-17k 是一个专为推理任务设计的高质量数据集,由 Bespoke Labs 团队于 2025 年开发,相关 Blog 为「Bespoke-Stratos: The unreasonable effectiveness of reasoning distillation」。该数据集通过改进伯克利的 Sky-T1 数据管道,并利用 DeepSeek-R1 的蒸馏数据生成,旨在为训练高性能推理模型提供支持。数据集包含问题、推理轨迹和答案,覆盖代码、数学和科学谜题等多个领域。通过使用 Bespoke Curator 工具,仅用 1.5 小时即可生成高质量的推理数据集,成本控制在 800 美元左右。该数据集采用 DeepSeek-R1 作为教师推理模型,无需额外格式化步骤,简化了数据生成流程。此外,通过 gpt-4o-mini 过滤错误的数学解决方案,显著提高了正确数学解决方案的保留率,从 25% 提升至 73% 。

数据集由 3 部分组成:编程数据(5,000 条来自 APPs 和 TACO 的数据)、数学数据(10,000 条来自 NuminaMATH 数据集的 AIME 、 MATH 和 Olympiads 子集)以及科学与谜题数据(1,000 条来自 STILL-2 的数据)。这些数据被用于训练 Bespoke-Stratos-32B 和 Bespoke-Stratos-7B 两个推理模型,这些模型在数学和代码推理基准测试中表现出色,超越了之前的模型。

Bespoke-Stratos-17k.torrent
做种 1正在下载 1已完成 42总下载次数 40
  • Bespoke-Stratos-17k/
    • README.md
      2.05 KB
    • README.txt
      4.09 KB
      • data/
        • Bespoke-Stratos-17k.zip
          107.46 MB