HyperAIHyperAI

Command Palette

Search for a command to run...

Nemotron-Math:基于多模态监督的数学推理高效长上下文蒸馏

Wei Du Shubham Toshniwal Branislav Kisacanin Sadegh Mahdavi Ivan Moshkov George Armstrong Stephen Ge Edgar Minasyan Feng Chen Igor Gitman

Abstract

高质量的数学推理监督需要多样化的推理模式、长序列的推理轨迹以及有效的工具集成能力,而现有数据集在这些方面仅以有限的形式提供支持。基于 gpt-oss-120b 的多模态生成能力,我们推出了 Nemotron-Math——一个大规模的数学推理数据集,包含 750 万条推理轨迹,涵盖高、中、低三种推理模式,每种模式均提供带与不带 Python 工具集成推理(Tool-Integrated Reasoning, TIR)的版本。该数据集整合了 8.5 万道精心筛选的 AoPS 题目,以及 26.2 万道由社区贡献的 StackExchange-Math 问题,融合了结构化的竞赛类任务与多样化的现实世界数学问题。我们通过受控实验评估了数据集的质量。在与原始 OpenMathReasoning 数据集在 AoPS 题目上的对比测试中,Nemotron-Math 表现持续更优。引入 StackExchange-Math 数据显著提升了模型的鲁棒性与泛化能力,尤其是在 HLE-Math 基准上表现突出,同时在数学竞赛基准测试中仍保持了高精度。为支持高效的长上下文训练,我们设计了一种顺序分桶策略,可在几乎不损失准确率的前提下,将 128K 上下文长度的微调速度提升 2 到 3 倍。总体而言,Nemotron-Math 能够实现当前最先进水平的性能表现,包括在 AIME 2024 和 2025 的测试中,结合 Python TIR 实现 100% 的 maj@16 准确率。


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供