HyperAI초신경

KodCode-V1 인코딩 합성 데이터 세트

날짜

2달 전

크기

1.99 GB

기관

마이크로소프트
워싱턴대학교

라이선스

CC BY 4.0

카테고리

KodCode는 Microsoft GenAI, 워싱턴 대학교, 텍사스 대학교 오스틴 캠퍼스의 연구원들에 의해 2025년에 출시되었습니다.KodCode: 코딩을 위한 다양하고 도전적이며 검증 가능한 합성 데이터 세트".

이 데이터 세트는 코딩 작업에 대한 검증 가능한 솔루션과 테스트를 제공하는 가장 큰 완전 합성 오픈 소스 데이터 세트입니다. 여기에는 다양한 분야(알고리즘에서 패키지별 지식까지)와 난이도(기본 코딩 연습에서 인터뷰 및 경쟁적 프로그래밍 과제까지)를 포괄하는 12개의 서로 다른 하위 집합이 포함되어 있으며, 지도 미세 조정(SFT) 및 RL 조정을 위해 설계되었습니다.

그림은 KodCode-V1을 생성하는 3단계 프로세스를 보여줍니다. 즉, 코딩 문제 합성, 솔루션 및 테스트 생성, 훈련 후 데이터 합성입니다. 최종 KodCode-V1 데이터 세트에는 447,000개의 검증된 질문-해결-시험 3중주가 포함되어 있습니다. 각 하위 집합의 분포는 오른쪽에 표시되어 있습니다.
KodCode-V1.torrent
시딩 1다운로드 중 2완료됨 24총 다운로드 횟수 26
  • KodCode-V1/
    • README.md
      1.61 KB
    • README.txt
      3.21 KB
      • data/
        • KodCode-V1.zip
          1.99 GB