OpenMathInstruct-2 数学指令调优数据集

日期

5 个月前

大小

10.23 GB

机构

NVIDIA(英伟达)

发布地址

huggingface.co

OpenMathInstruct-2 是由英伟达于 2024 年发布的大规模的开源数学指导数据集,旨在加速人工智能在数学领域的进展,相关论文成果为「OpenMathInstruct-2: Accelerating AI for Math with Massive Open-Source Instruction Data」。该数据集包含 1,400 万对问答(约有 60 万个独特的问题),其规模是此前最大同类数据集的近 8 倍。通过使用 OpenMathInstruct-2 对 Llama-3.1-8B-Base 模型进行微调,其在 MATH 数据集上的性能比 Llama3.1-8B-Instruct 提高了 15.9%(从 51.9% 提高到 67.8%)。

OpenMathInstruct-2 数据集包含以下字段:

  • problem:原始问题,来自 GSM8K 或 MATH 训练集,或者是从这些训练集中增强的问题。
  • generated_solution:合成生成的解。
  • expected_answer:对于训练集中的问题,它是数据集中提供的真实的参考答案。对于增强的问题,它是多数投票得到的答案。
  • problem_source:表明问题是直接来自 GSM8K 或 MATH,或者是从任一数据集中派生出的增强版本。
数据集结构示例

OpenMathInstruct-2.torrent

做种 1

下载中 0

已完成 35

总下载 29

  • OpenMathInstruct-2/
    • README.md
      1.85 KB
    • README.txt
      3.7 KB
      • data/
        • OpenMathInstruct-2.zip
          10.23 GB