HyperAI초신경

홈 플랫폼 문서 뉴스 연구 논문 튜토리얼 데이터셋 백과사전 SOTA LLM 모델 GPU 랭킹 컨퍼런스

한국어

HyperAI초신경

라마-네모트론-훈련 후 데이터 세트 훈련 후 데이터 세트

날짜

2달 전

기관

논문 URL

라이선스

CC BY 4.0

태그

자연어 처리

선호도 정렬

명령어 미세 조정

온라인에서 이 데이터셋 사용하기Discord 커뮤니티 참여

Llama-Nemotron-Post-Training-Dataset은 NVIDIA가 2025년에 오픈소스로 공개한 대규모 사후 학습 데이터셋입니다. 관련 논문 결과는 다음과 같습니다.라마-네모트론: 효율적 추론 모델"는 Llama-Nemotron 시리즈 모델의 수학, 코드, 일반 추론 및 교육 추적 능력을 사후 훈련 단계(예: SFT 및 RL)에서 개선하는 것을 목표로 합니다.

이 데이터셋은 지도 학습 미세 조정(SFT)과 강화 학습(RL) 단계의 데이터를 결합합니다. 현재 버전인 v1.1(이전 버전 대비 약 220만 개의 수학 샘플과 50만 개의 코드 추론 샘플 추가)은 AI 에이전트, 챗봇, RAG 시스템 및 기타 AI 기반 애플리케이션 학습에 적합합니다.

데이터 분포(범주 항목 수 기준)

수학: 22,066,397
코드: 10,108,883
과학: 708,920
다음 지시 사항: 56,339
채팅: 39,792
안전: 31,426

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩

즉시 사용 가능한 GPU

최적 가격

Hyper Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp