HyperAI超神经

AM-DeepSeek-R1-Distilled-1.4M 大规模通用推理任务数据集

日期

2 个月前

大小

47.22 GB

机构

发布地址

github.com

AM-DeepSeek-R1-Distilled-1.4M 是由 a-m-team 于 2025 年 3 月发布的一个大规模通用推理任务数据集,相关论文成果为「1.4 Million Open-Source Distilled Reasoning Dataset to Empower Large Language Model Training」。

该数据集包含约 140 万条数据条目,涵盖了数学、代码、科学问答和通用聊天等多种类型的问题。这些数据经过精心选择、语义去重和严格的清洗处理,确保了数据的高质量和挑战性。数据集中的每个条目都包含了丰富的思考痕迹,这些痕迹不仅为模型提供了推理过程的示例,还帮助模型更好地理解和生成复杂的推理任务解决方案。 AM-DeepSeek-R1-Distilled-1.4M 数据集的发布,旨在为自然语言处理和推理任务领域提供一个强大的工具,尤其是用于训练和优化大型语言模型的推理能力。它可以帮助模型在数学、代码、科学问答等关键领域中提升表现,从而更好地应对各种复杂的推理任务。

AM-DeepSeek-R1-Distilled-1.4M.torrent
做种 1正在下载 0已完成 0总下载次数 1
  • AM-DeepSeek-R1-Distilled-1.4M/
    • README.md
      1.8 KB
    • README.txt
      3.6 KB
      • data/
        • main.zip
          10.32 GB
          • main/
            • README.md
              10.32 GB
            • am_0.5M.jsonl
              23.84 GB
            • am_0.5M.jsonl.zst
              25.76 GB
            • am_0.9M.jsonl
              44.19 GB
            • am_0.9M.jsonl.zst
              47.19 GB
            • am_0.9M_sample_1k.jsonl
              47.21 GB
            • am_0.9M_sample_1k.jsonl.zst
              47.22 GB