Command Palette

Search for a command to run...

Nemotron-CC-v2 사전 학습 데이터 세트

날짜

2달 전

기관

엔비디아

논문 URL

2508.14444

라이선스

기타

Discord 커뮤니티 참여

Nemotron-CC-v2는 NVIDIA가 2025년에 출시한 Nemotron-CC의 후속 버전입니다. 관련 논문 결과는 다음과 같습니다.NVIDIA Nemotron Nano 2: 정확하고 효율적인 하이브리드 Mamba-Transformer 추론 모델".

이 데이터셋은 기존 영어 웹 코퍼스를 기반으로 2024년부터 2025년까지의 8개 Common Crawl 스냅샷을 추가하고, 글로벌 중복 제거 및 영어 필터링을 수행하여 구축되었습니다. 또한 Qwen3-30B-A3B를 사용하여 웹 콘텐츠를 합성하고 재구성하고, 다양한 질의응답(Diverse QA)을 보완하며, 다국어 논리적 추론 및 일반 지식 사전 학습을 강화하기 위해 15개 언어로 추가 번역했습니다. 이 데이터셋의 의의는 "고품질 영어 웹페이지 → 종합된 다양한 QA"라는 효과적인 접근 방식을 한 단계 발전시켜, 최신 웹 크롤링과 다국어 확장을 체계적인 접근 방식으로 결합하는 데 있습니다. 엄격한 중복 제거, 필터링 및 재현 가능한 배포를 통해 다양한 사전 학습 파이프라인에 직접 통합할 수 있습니다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
Nemotron-CC-v2 사전 학습 데이터 세트 | 데이터셋 | HyperAI초신경