Nemotron-CC-Math 수학 사전 학습 데이터 세트
Nemotron-CC-Math는 NVIDIA와 보스턴 대학교가 2025년에 공개한 수학에 초점을 맞춘 고품질 대규모 사전 학습 데이터셋입니다. 관련 논문 결과는 다음과 같습니다.Nemotron-CC-Math: 1,330억 토큰 규모의 고품질 수학 사전 학습 데이터 세트”는 높은 가치의 수학 및 코드 콘텐츠를 보존하고 표시하여 차세대 지능형 글로벌 언어 모델을 주도하는 것을 목표로 합니다.
1,330억 개의 토큰을 포함하는 이 데이터셋은 NVIDIA Lynx와 경량 LLM 기반 추출 및 정규화 파이프라인을 사용하여 Common Crawl에서 구축되었습니다. 방정식과 코드의 구조는 그대로 유지하면서 수학적 내용은 편집 가능한 LaTeX 형식으로 표준화되었습니다. 이는 웹 규모에서 다양한(롱테일 포함) 수학적 형식을 안정적으로 커버하는 최초의 사례이며, 여러 벤치마크에서 그 장점이 검증되었습니다.
