HyperAI초신경

OpenCodeReasoning 프로그래밍 추론 데이터 세트

날짜

19일 전

기관

엔비디아

발행 주소

huggingface.co

다운로드 도움말

OpenCodeReasoning은 NVIDIA가 2025년에 공개한 대규모 프로그래밍 추론 합성 데이터 세트입니다. 대규모 언어 모델(LLM)에 대한 고품질 프로그래밍 추론 교육 데이터를 제공하고 코드 생성 및 논리적 추론 기능 향상을 목표로 합니다. 관련 논문 결과는 다음과 같습니다.OpenCodeReasoning: 경쟁력 있는 코딩을 위한 데이터 정제의 발전".

이 데이터 세트에는 28,319개의 고유한 프로그래밍 문제를 다루는 735,255개의 샘플이 포함되어 있으며, 현재 사용 가능한 가장 큰 추론 프로그래밍 데이터 세트 중 하나입니다.

데이터 출처:

  • 여기에는 CodeForces, CodeChef, LeetCode를 포함한 11개의 주요 프로그래밍 플랫폼과 TACO, APPS, CodeContests와 같은 공개 데이터 세트의 문제가 통합되어 있습니다.
  • 코드 응답은 추론 논리의 데이터 일관성과 표준화를 보장하기 위해 NVIDIA가 자체 개발한 모델 R1에 의해 생성됩니다.