PromptCoT-2.0-SFT-4.8M 감독 미세 조정 프롬프트 SFT 데이터 세트
PromptCoT-2.0-SFT-4.8M은 홍콩대학교 연구팀과 Ant Group이 2025년에 공개한 대규모 합성 프롬프트 데이터셋입니다. 관련 논문 결과는 다음과 같습니다.PromptCoT 2.0: 대규모 언어 모델 추론을 위한 프롬프트 합성 확장"는 대규모 언어 모델의 미세 조정이나 자체 학습을 위해 고품질 추론 프롬프트 코퍼스를 제공하는 것을 목표로 합니다.
이 데이터 세트에는 지도 미세 조정과 자체 연습 시나리오 모두에서 추론 궤적이 포함된 약 480만 개의 완전 합성 프롬프트가 포함되어 있으며, 수학과 프로그래밍이라는 두 가지 주요 추론 영역을 포괄합니다.
데이터 구성:
- 지도 미세 조정(SFT) 시나리오에서는 다음을 포함하여 총 4,766,890개의 프롬프트가 합성되었습니다.
- 1,188,505개의 프로그래밍 작업 프롬프트
- 3,578,385개의 수학 과제 프롬프트