OpenMathInstruct-2 是由英伟达于 2024 年发布的大规模的开源数学指导数据集,旨在加速人工智能在数学领域的进展,相关论文成果为「OpenMathInstruct-2: Accelerating AI for Math with Massive Open-Source Instruction Data」。该数据集包含 1,400 万对问答(约有 60 万个独特的问题),其规模是此前最大同类数据集的近 8 倍。通过使用 OpenMathInstruct-2 对 Llama-3.1-8B-Base 模型进行微调,其在 MATH 数据集上的性能比 Llama3.1-8B-Instruct 提高了 15.9%(从 51.9% 提高到 67.8%)。
OpenMathInstruct-2 数据集包含以下字段:
- problem:原始问题,来自 GSM8K 或 MATH 训练集,或者是从这些训练集中增强的问题。
- generated_solution:合成生成的解。
- expected_answer:对于训练集中的问题,它是数据集中提供的真实的参考答案。对于增强的问题,它是多数投票得到的答案。
- problem_source:表明问题是直接来自 GSM8K 或 MATH,或者是从任一数据集中派生出的增强版本。

OpenMathInstruct-2.torrent
做种 1正在下载 1已完成 62总下载次数 43