Command Palette

Search for a command to run...

Nemotron-Pretraining-Code-v1 코드 데이터 세트

날짜

2달 전

기관

엔비디아

논문 URL

2508.14444

라이선스

기타

Discord 커뮤니티 참여

Nemotron-Pretraining-Code-v1은 NVIDIA가 2025년에 GitHub 기반으로 공개한 대규모 코드 데이터셋입니다. 관련 논문 결과는 다음과 같습니다.NVIDIA Nemotron Nano 2: 정확하고 효율적인 하이브리드 Mamba-Transformer 추론 모델"

다단계 중복 제거, 라이선스 적용, 휴리스틱 품질 검사를 거쳐 필터링된 이 데이터 세트에는 LLM에서 생성된 11개 프로그래밍 언어로 작성된 코드 질의응답 쌍이 포함되어 있습니다. 이 데이터 세트에는 고품질 합성 코드 토큰 1,751억 개뿐만 아니라 사용자 재생산을 용이하게 하는 메타데이터(약 7,474억 개)도 포함되어 있습니다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp