Command Palette
Search for a command to run...
Nemotron-Pretraining-SFT-v1 지도 미세 조정 데이터 세트
Nemotron-Pretraining-SFT-v1은 NVIDIA가 2025년에 발표한 합성 생성 데이터셋입니다. 관련 논문은 "NVIDIA Nemotron Nano 2: 정확하고 효율적인 하이브리드 Mamba-Transformer 추론 모델"로, 명령어 따르기, 추론, 코드 작성 및 일반적인 질의응답과 같은 작업에서 모델의 성능을 향상시키는 것을 목표로 합니다.
이 데이터셋은 STEM, 학문적, 논리적 추론 및 다국어 시나리오를 대상으로 합니다. 고품질 수학 및 과학 자료를 기반으로 확장 및 생성되었으며, 대학원 수준의 학술 텍스트와 지도 및 정밀 조정된 SFT 데이터를 결합하여 복잡한 객관식 문제와 분석 문제(완전한 답/아이디어 포함)를 구성합니다. 이는 수학, 코딩, 일반 상식 및 논리적 추론 등 다양한 과제를 포괄합니다.
Nemotron 사전 학습 데이터의 공식 통계에서는 SFT 관련 카테고리(수학 SFT, 코드 SFT, 일반 SFT 등)가 상당한 비중을 차지하므로 사용자는 재현 가능한 실험을 위해 메타데이터에 따라 필요한 하위 집합을 쉽게 필터링할 수 있습니다.