라마-네모트론-훈련 후 데이터 세트 훈련 후 데이터 세트

날짜

한 달 전

기관

엔비디아

발행 주소

huggingface.co

논문 URL

2505.00949

라이선스

CC BY 4.0

다운로드 도움말

Llama-Nemotron-Post-Training-Dataset은 NVIDIA가 2025년에 오픈소스로 공개한 대규모 사후 학습 데이터셋입니다. 관련 논문 결과는 다음과 같습니다.라마-네모트론: 효율적 추론 모델"는 Llama-Nemotron 시리즈 모델의 수학, 코드, 일반 추론 및 교육 추적 능력을 사후 훈련 단계(예: SFT 및 RL)에서 개선하는 것을 목표로 합니다.

이 데이터셋은 지도 학습 미세 조정(SFT)과 강화 학습(RL) 단계의 데이터를 결합합니다. 현재 버전인 v1.1(이전 버전 대비 약 220만 개의 수학 샘플과 50만 개의 코드 추론 샘플 추가)은 AI 에이전트, 챗봇, RAG 시스템 및 기타 AI 기반 애플리케이션 학습에 적합합니다.

데이터 분포(범주 항목 수 기준)

  • 수학: 22,066,397
  • 코드: 10,108,883
  • 과학: 708,920
  • 다음 지시 사항: 56,339
  • 채팅: 39,792
  • 안전: 31,426