9 天前

Nemotron-CC-Math:一个1330亿token规模的高质量数学预训练数据集

Rabeeh Karimi Mahabadi, Sanjeev Satheesh, Shrimai Prabhumoye, Mostofa Patwary, Mohammad Shoeybi, Bryan Catanzaro
Nemotron-CC-Math:一个1330亿token规模的高质量数学预训练数据集
摘要

在高质量、结构化数据(如数学和代码)上预训练大规模语言模型(LLMs),可显著提升其推理能力。然而,现有基于Common Crawl构建的数学专用数据集由于依赖脆弱的提取启发式规则、有损的HTML到文本转换,以及无法可靠保留数学结构,导致数据质量严重下降。在本工作中,我们提出Nemotron-CC-Math,一个大规模、高质量的数学语料库,该语料库通过一种新型、领域无关的管道从Common Crawl中构建而成,专门针对稳健的科学文本提取设计。 与以往方法不同,我们的管道通过使用基于布局感知的渲染工具lynx,并结合针对性的基于大语言模型(LLM)的清洗阶段,能够有效恢复多种格式的数学表达式(例如MathJax、KaTeX、MathML)。该方法在保留公式与代码块结构完整性的前提下,去除冗余内容,将数学符号统一标准化为LaTeX表示,并修正不一致之处。 我们构建了大规模、高质量的数学语料库,分别为Nemotron-CC-Math-3+(1330亿token)和Nemotron-CC-Math-4+(520亿token)。值得注意的是,Nemotron-CC-Math-4+不仅超越了所有先前公开的数学数据集(包括MegaMath、FineMath和OpenWebMath),其数据量更是此前最高质量数学预训练数据集FineMath-4+的5.5倍。当用于预训练Nemotron-T 8B模型时,我们的语料库在MATH基准上带来+4.8至+12.6的性能提升,在MBPP+基准上实现+4.6至+14.3的增益,显著优于强基线模型,同时在MMLU和MMLU-Stem等通用领域任务上也表现出更优的性能。 我们首次提出了一种能够可靠从噪声庞大的网络数据中提取科学内容(包括数学)的管道,实现了数学、代码及通用推理能力的可衡量提升,并在公开数学预训练语料库中树立了新的技术标杆。为支持开源研究,我们已公开发布相关代码与数据集。