AceReason-1.1-SFT 是由英伟达于 2025 年发布的一个多样化且高质量的监督式微调(SFT)数据集,专注于数学和代码推理。相关论文成果为:「AceReason-Nemotron 1.1: Advancing Math and Code Reasoning through SFT and RL Synergy」,旨在训练专注于数学和代码推理的 SFT 模型。
该数据集作为数学和代码推理模型 AceReason-Nemotron-1.1-7B 的 SFT 训练数据,数据集中的所有回答均由 DeepSeek-R1 生成。
AceReason-1.1-SFT 数据集包含 2,668,741 个数学样本和 1,301,591 个代码样本,涵盖来自 OpenMathReasoning 、 NuminaMath-CoT 、 OpenCodeReasoning 、 MagicoderEvolInstruct 、 opc-sft-stage2 、 leetcode 、 TACO 和 apps 等数据源的数据。该数据集进行了数据净化,并过滤了与数学和编码基准测试中任何测试样本有 9-gram 重叠的样本。