Nemotron-사전 훈련-데이터셋-샘플 샘플링 데이터셋

날짜

한 달 전

크기

79.87 MB

기관

엔비디아

발행 주소

huggingface.co

논문 URL

2508.14444

라이선스

其他

* 이 데이터 세트는 온라인 사용을 지원합니다.여기를 클릭하여 이동하세요.

Nemotron-Pretraining-Dataset-sample은 NVIDIA가 2025년에 발표한 Nemotron 사전 학습 데이터셋의 간소화된 샘플링 버전입니다. 관련 논문 결과는 다음과 같습니다.NVIDIA Nemotron Nano 2: 정확하고 효율적인 하이브리드 Mamba-Transformer 추론 모델".

이 데이터 세트는 전체 SFT와 사전 학습 코퍼스의 다양한 구성 요소에서 선택한 10개의 대표적인 하위 세트로 구성되어 있으며, 고품질의 질의 응답 데이터, 수학 분야에 초점을 맞춘 추출된 콘텐츠, 코드 메타데이터, SFT 스타일 지침 데이터를 포함하고 있어 검토 및 빠른 실험에 적합합니다.

Nemotron 사전 학습 데이터 세트 샘플.torrent
시딩 1다운로드 중 0완료됨 10총 다운로드 횟수 41
  • Nemotron-Pretraining-Dataset-sample/
    • README.md
      1.37 KB
    • README.txt
      2.73 KB
      • data/
        • Nemotron-Pretraining-Dataset-sample.zip
          79.87 MB