Nemotron-CC-v2 사전 학습 데이터 세트

날짜

7일 전

기관

엔비디아

발행 주소

huggingface.co

라이선스

其他

카테고리

다운로드 도움말

Nemotron-CC-v2는 NVIDIA가 2025년에 출시한 Nemotron-CC의 후속 버전입니다. 관련 논문 결과는 다음과 같습니다.NVIDIA Nemotron Nano 2: 정확하고 효율적인 하이브리드 Mamba-Transformer 추론 모델".

이 데이터셋은 기존 영어 웹 코퍼스를 기반으로 2024년부터 2025년까지의 8개 Common Crawl 스냅샷을 추가하고, 글로벌 중복 제거 및 영어 필터링을 수행하여 구축되었습니다. 또한 Qwen3-30B-A3B를 사용하여 웹 콘텐츠를 합성하고 재구성하고, 다양한 질의응답(Diverse QA)을 보완하며, 다국어 논리적 추론 및 일반 지식 사전 학습을 강화하기 위해 15개 언어로 추가 번역했습니다. 이 데이터셋의 의의는 "고품질 영어 웹페이지 → 종합된 다양한 QA"라는 효과적인 접근 방식을 한 단계 발전시켜, 최신 웹 크롤링과 다국어 확장을 체계적인 접근 방식으로 결합하는 데 있습니다. 엄격한 중복 제거, 필터링 및 재현 가능한 배포를 통해 다양한 사전 학습 파이프라인에 직접 통합할 수 있습니다.