日期

10 个月前

数据集组织

论文 URL

2508.15096

许可证

Other

标签

数学

NVIDIA

Nemotron-CC-Math 是由英伟达和波士顿大学于 2025 年发布的一个以数学为重点的高质量大规模预训练数据集，相关论文成果为「Nemotron-CC-Math: A 133 Billion-Token-Scale High Quality Math Pretraining Dataset」，旨在保存和展示高价值的数学和代码内容，从而推动下一波智能的、具有全球能力的语言模型。该数据集包含 1,330 亿 Token，基于 NVIDIA Lynx 与轻量 LLM 的抽取与规范化管线自 Common Crawl 构建。在保留方程与代码版式结构的同时，将数学内容统一为可编辑的 LaTeX 格式，首次在 Web 规模上可靠覆盖多种（含长尾）数学格式；其优势已在多项基准中得到验证。

Citation

@article{karimi2025nemotroncc, title = {Nemotron-cc-math: A 133 Billion-Token-Scale High Quality Math Pretraining Dataset}, author = {Rabeeh Karimi Mahabadi, Sanjeev Satheesh, Shrimai Prabhumoye, Mostofa Patwary, Mohammad Shoeybi, Bryan Catanzaro }, url = {https://arxiv.org/abs/2508.15096}, year = {2025} }

此数据集由社区用户贡献,仅用于教育和信息目的。如有任何内容涉及版权侵权,请通过 [email protected] 联系我们,我们将及时审核并删除。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

HyperAI

在 Discord 上讨论

日期

10 个月前

数据集组织

论文 URL

2508.15096

许可证

Other

8 天前

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

Nemotron-CC-Math 数学预训练数据集

Citation

用 AI 构建 AI

HyperAI Newsletters

Command Palette

Nemotron-CC-Math 数学预训练数据集

Citation

相关数据集

MAKIEVAL 多语言文化知识评估数据集

SAM 3D Artist Objects 3D 物体重建数据集

Nemotron-SFT-Math-v4 数学推理 SFT 数据集

Noisy Medical Document 含噪医疗文档图像数据集

ChartNet 图表理解多模态数据集

TACK 靶向嵌合体知识库数据集

World Air Pollution and AQI 全球空气质量与 AQI 数据集

SMOL 多语言翻译平行数据集

Rice Leaf Diseases 水稻叶片病害检测数据集

AgentTrove 智能体交互轨迹数据集

Caravan 全球社区大样本水文数据集

Long-Distance Wildfire & Smoke Detection 长距离野火烟雾检测数据集

GRAPE Leaf Diseases 葡萄叶片病害检测数据集

QCalEval 量子校准图表理解数据集

Corn Leaf Diseases 玉米叶片病害检测数据集

PanScale 遥感全色锐化数据集

OpenMementos 上下文记忆压缩数据集

BRIGHT 灾害建筑评估数据集

用 AI 构建 AI

HyperAI Newsletters

Command Palette

Nemotron-CC-Math 数学预训练数据集

Citation

相关数据集

MAKIEVAL 多语言文化知识评估数据集

SAM 3D Artist Objects 3D 物体重建数据集

Nemotron-SFT-Math-v4 数学推理 SFT 数据集

Noisy Medical Document 含噪医疗文档图像数据集

ChartNet 图表理解多模态数据集

TACK 靶向嵌合体知识库数据集

World Air Pollution and AQI 全球空气质量与 AQI 数据集

SMOL 多语言翻译平行数据集

Rice Leaf Diseases 水稻叶片病害检测数据集

AgentTrove 智能体交互轨迹数据集

Caravan 全球社区大样本水文数据集

Long-Distance Wildfire & Smoke Detection 长距离野火烟雾检测数据集

GRAPE Leaf Diseases 葡萄叶片病害检测数据集

QCalEval 量子校准图表理解数据集

Corn Leaf Diseases 玉米叶片病害检测数据集

PanScale 遥感全色锐化数据集

OpenMementos 上下文记忆压缩数据集

BRIGHT 灾害建筑评估数据集

用 AI 构建 AI

HyperAI Newsletters

相关数据集

MAKIEVAL 多语言文化知识评估数据集

SAM 3D Artist Objects 3D 物体重建数据集

Nemotron-SFT-Math-v4 数学推理 SFT 数据集

Noisy Medical Document 含噪医疗文档图像数据集

ChartNet 图表理解多模态数据集

TACK 靶向嵌合体知识库数据集

World Air Pollution and AQI 全球空气质量与 AQI 数据集

SMOL 多语言翻译平行数据集

Rice Leaf Diseases 水稻叶片病害检测数据集

AgentTrove 智能体交互轨迹数据集

Caravan 全球社区大样本水文数据集

Long-Distance Wildfire & Smoke Detection 长距离野火烟雾检测数据集

GRAPE Leaf Diseases 葡萄叶片病害检测数据集

QCalEval 量子校准图表理解数据集

Corn Leaf Diseases 玉米叶片病害检测数据集

PanScale 遥感全色锐化数据集

OpenMementos 上下文记忆压缩数据集

BRIGHT 灾害建筑评估数据集

相关数据集

MAKIEVAL 多语言文化知识评估数据集

SAM 3D Artist Objects 3D 物体重建数据集

Nemotron-SFT-Math-v4 数学推理 SFT 数据集

Noisy Medical Document 含噪医疗文档图像数据集

ChartNet 图表理解多模态数据集

TACK 靶向嵌合体知识库数据集

World Air Pollution and AQI 全球空气质量与 AQI 数据集