HyperAI초신경

NextCoder 코드 편집 데이터 세트

날짜

3일 전

기관

마이크로소프트

발행 주소

huggingface.co

라이선스

MIT

카테고리

다운로드 도움말

NextCoder는 Microsoft가 2025년에 출시한 합성 대화 코딩 편집 데이터 세트입니다. 관련 논문 결과는 다음과 같습니다.NextCoder: 다양한 코드 편집에 맞춰 코드 LM을 강력하게 적용주로 대규모 언어 모델의 미세 조정에 사용되어 코드 수정, 리팩토링 및 최적화에서 모델의 성능을 향상시킵니다. AI 프로그래밍 어시스턴트 훈련과 코드 판독 및 다중 라운드 상호작용 기능 향상에 매우 적합합니다.

이 데이터 세트에는 Python, Java, C++, C, Rust, JavaScript, Go, Kotlin 등 8개 언어를 포함하여 약 381,000개의 단일 턴 지시 샘플(NextCoderDataset)과 57,000개의 다중 턴 대화 샘플(대화형 버전)이 포함되어 있습니다. 데이터는 GPT‑4o 및 LLaMA‑3.3‑70B‑Instruct 모델에 의해 생성됩니다.

데이터 분포:

  • 자바스크립트: 16030
  • 파이썬: 15279
  • C:17153
  • C++: 17337
  • 녹: 16438
  • 이동: 15204
  • 코틀린: 13272
  • 자바: 16328