Nemotron-CC-Math: 토큰 규모 1330억 이상의 고품질 수학 전처리 데이터셋

수학 및 코드와 같은 고품질의 구조화된 데이터를 기반으로 대규모 언어 모델(LLM)을 사전 훈련하면 추론 능력이 크게 향상된다. 그러나 기존의 Common Crawl에서 구축된 수학 중심 데이터셋은 취약한 추출 히ュ리스틱, 손실이 발생하는 HTML에서 텍스트로의 변환, 그리고 수학적 구조를 신뢰할 수 있게 유지하지 못하는 문제로 인해 품질이 저하되는 경향이 있다. 본 연구에서는 이러한 문제를 해결하기 위해, 과학적 텍스트 추출에 특화된 도메인 무관(domain-agnostic)한 새로운 파이프라인을 활용하여 Common Crawl에서 대규모 고품질 수학 코퍼스를 구축한 'Nemotron-CC-Math'를 소개한다. 기존의 접근 방식과 달리, 본 연구의 파이프라인은 lynx를 활용한 레이아웃 인식 렌더링과 특화된 LLM 기반 정제 단계를 통해 다양한 형식(예: MathJax, KaTeX, MathML)의 수식을 효과적으로 복원한다. 이 방법은 수식과 코드 블록의 구조적 완전성을 유지하면서, 반복적이고 불필요한 문구를 제거하고 표기법을 일관된 LaTeX 형식으로 표준화하며, 일관성 없는 표현을 수정한다. 우리는 대규모 고품질 수학 코퍼스인 'Nemotron-CC-Math-3+'(1330억 토큰)과 'Nemotron-CC-Math-4+'(520억 토큰)을 수집하였다. 특히 Nemotron-CC-Math-4+는 기존의 모든 오픈 소스 수학 데이터셋(예: MegaMath, FineMath, OpenWebMath)을 뛰어넘으며, 이전까지 가장 고품질로 평가되었던 FineMath-4+보다 토큰 수가 5.5배 많다. 이 코퍼스를 사용하여 Nemotron-T 8B 모델을 사전 훈련했을 때, MATH 벤치마크에서 기존 강력한 베이스라인 대비 +4.8~+12.6의 성능 향상, MBPP+에서는 +4.6~+14.3의 성능 향상을 달성하였으며, MMLU 및 MMLU-Stem과 같은 일반 도메인 성능 또한 개선되었다. 본 연구는 노이즈가 많은 웹 규모 데이터에서 과학 콘텐츠(수학 포함)를 신뢰할 수 있게 추출하는 최초의 파이프라인을 제안하며, 수학, 코드, 일반 추론 능력 측면에서 측정 가능한 성능 향상을 입증하였다. 이는 오픈 소스 수학 사전 훈련 코퍼스 분야에서 새로운 최고 수준의 성과를 달성한 것으로, 기존 기준을 재정의하였다. 오픈 소스 공동체의 발전을 지원하기 위해, 본 연구의 코드와 데이터셋을 공개한다.