OpenMathInstruct-2 是由英伟达于 2024 年发布的大规模的开源数学指导数据集,旨在加速人工智能在数学领域的进展,相关论文成果为「OpenMathInstruct-2: Accelerating AI for Math with Massive Open-Source Instruction Data」。该数据集包含 1,400 万对问答(约有 60 万个独特的问题),其规模是此前最大同类数据集的近 8 倍。通过使用 OpenMathInstruct-2 对 Llama-3.1-8B-Base 模型进行微调,其在 MATH 数据集上的性能比 Llama3.1-8B-Instruct 提高了 15.9%(从 51.9% 提高到 67.8%)。
OpenMathInstruct-2 数据集包含以下字段:
做种 1
下载中 0
已完成 35
总下载 29