Command Palette
Search for a command to run...
Nemotron-Pretraining-Code-v1 코드 데이터 세트
Nemotron-Pretraining-Code-v1은 NVIDIA가 2025년에 GitHub 기반으로 공개한 대규모 코드 데이터셋입니다. 관련 논문 결과는 다음과 같습니다.NVIDIA Nemotron Nano 2: 정확하고 효율적인 하이브리드 Mamba-Transformer 추론 모델"
다단계 중복 제거, 라이선스 적용, 휴리스틱 품질 검사를 거쳐 필터링된 이 데이터 세트에는 LLM에서 생성된 11개 프로그래밍 언어로 작성된 코드 질의응답 쌍이 포함되어 있습니다. 이 데이터 세트에는 고품질 합성 코드 토큰 1,751억 개뿐만 아니라 사용자 재생산을 용이하게 하는 메타데이터(약 7,474억 개)도 포함되어 있습니다.