Command Palette
Search for a command to run...
Nemotron-Post-Training-Dataset-v2 훈련 후 데이터 세트
Nemotron-Post-Training-Dataset-v2는 기존 학습 후 코퍼스를 기반으로 NVIDIA가 2025년에 출시할 버전입니다. 이 데이터셋은 수학, 코드, STEM(과학, 기술, 공학, 수학), 대화 및 기타 시나리오를 포함하여 SFT 및 RL 데이터를 5가지 대상 언어(스페인어/프랑스어/독일어/이탈리아어/일본어)로 확장하여 모델의 추론 및 지시 수행 능력을 향상하는 데 사용됩니다. 또한 메타데이터 기반 필터링 기능과 일반적인 하위 집합 예시를 제공합니다. 이 데이터셋은 Nemotron-Nano-9B-v2 시리즈의 출시 및 정렬 연구를 지원하며, 사용자가 실험을 재현하고 개선할 수 있도록 지원하는 공개 학습 후 코퍼스 중 하나입니다. 관련 논문 결과는 다음과 같습니다.NVIDIA Nemotron Nano 2: 정확하고 효율적인 하이브리드 Mamba-Transformer 추론 모델".
스크리닝 가능한 샘플분산된메타데이터 포함:
- 필터 다운로드: 카테고리/언어/소스 모델 등의 메타데이터를 통한 빠른 필터링 및 다운로드 지원
- 카테고리 및 크기(값): 수학(239,467); 코드(175,000); 줄기세포(355,000); 채팅(627,720)
- 다국어 지원: ja, de, it, es, fr
- 출처: 여러 대형 모델(DeepSeek-R1-0528, Qwen 2.5/3 시리즈 등)에서 합성됨
- 주석 형식: 일부 샘플에서는 "추론 켜짐 또는 꺼짐"이라는 두 가지 응답을 제공합니다. 추론 추적은 영어로 되어 있습니다.
Nemotron-Post-Training-Dataset-v2.torrent
시딩 1다운로드 중 0완료됨 25총 다운로드 횟수 75