HyperAI초신경

DS-1000 코드 생성 벤치마크 데이터 세트

다운로드 도움말

DS-1000은 홍콩대학교, 베이징대학교 및 기타 대학이 2022년에 공동으로 발표한 코드 생성 분야의 벤치마크 데이터 세트입니다. 데이터 과학 분야의 코드 생성 작업에 중점을 두고 있습니다. 관련 논문 결과는 "DS-1000: 데이터 과학 코드 생성을 위한 자연스럽고 신뢰할 수 있는 벤치마크".

이 데이터 세트에는 NumPy, Pandas, TensorFlow 등 Python에서 널리 사용되는 7가지 데이터 과학 라이브러리를 포함하여 StackOverflow에서 나온 1,000개의 실제 데이터 과학 문제가 포함되어 있습니다. 이러한 문제는 실제 세계의 다양성과 실용성을 반영할 뿐만 아니라 다중 기준 자동 평가 방법을 통해 솔루션의 신뢰성과 정확성을 보장합니다. DS-1000은 모델이 표면적, 의미적 교란과 어려운 재작성을 통해 훈련 데이터를 단순히 기억하는 데 그치지 않고, 모델이 올바른 답변을 제공하기 위해서는 질문을 정말로 이해해야 한다는 점에 특별한 주의를 기울여 구축되었습니다.

데이터 세트의 구조는 매우 명확합니다. 각 라이브러리의 질문은 완성과 삽입의 두 가지 프롬프트 형식으로 제공됩니다. 각 질문에는 메타 정보, 입력 데이터, 참조 코드, 테스트 코드 등이 포함되어 있습니다. 이러한 설계를 통해 데이터 세트가 완전하고 검증 가능하게 됩니다. DS-1000은 광범위한 적용 시나리오를 지원하며, 자동 코드 완성부터 교육 및 학습, 성과 평가까지 중요한 역할을 수행할 수 있습니다.