NextCoder 코드 편집 데이터 세트
NextCoder는 Microsoft가 2025년에 출시한 합성 대화 코딩 편집 데이터 세트입니다. 관련 논문 결과는 다음과 같습니다.NextCoder: 다양한 코드 편집에 맞춰 코드 LM을 강력하게 적용주로 대규모 언어 모델의 미세 조정에 사용되어 코드 수정, 리팩토링 및 최적화에서 모델의 성능을 향상시킵니다. AI 프로그래밍 어시스턴트 훈련과 코드 판독 및 다중 라운드 상호작용 기능 향상에 매우 적합합니다.
이 데이터 세트에는 Python, Java, C++, C, Rust, JavaScript, Go, Kotlin 등 8개 언어를 포함하여 약 381,000개의 단일 턴 지시 샘플(NextCoderDataset)과 57,000개의 다중 턴 대화 샘플(대화형 버전)이 포함되어 있습니다. 데이터는 GPT‑4o 및 LLaMA‑3.3‑70B‑Instruct 모델에 의해 생성됩니다.
데이터 분포:
- 자바스크립트: 16030
- 파이썬: 15279
- C:17153
- C++: 17337
- 녹: 16438
- 이동: 15204
- 코틀린: 13272
- 자바: 16328