HyperAI초신경

DeepSeek R1 Distill 데이터 110k 중국어 기반 DeepSeek-R1 Distill 데이터 세트

날짜

3달 전

크기

231.15 MB

발행 주소

huggingface.co

라이선스

Apache 2.0

* 이 데이터 세트는 온라인 사용을 지원합니다.여기를 클릭하여 이동하세요.

이 데이터 세트는 중국 오픈 소스 순수 R1 데이터 세트입니다. 해당 데이터셋에는 수학 데이터뿐만 아니라, 총 11만 개에 달하는 많은 양의 일반형 데이터가 포함되어 있습니다.

이 데이터 세트를 오픈 소스로 공개한 이유는 R1의 효과가 매우 강력하고, R1 정제 데이터 SFT를 기반으로 한 소규모 모델도 강력한 효과를 보여주기 때문입니다. 그러나 검색 결과, 오픈소스 R1 증류 데이터 세트의 대부분은 영어 데이터 세트인 것으로 나타났습니다. 동시에 R1 보고서는 일부 일반 시나리오 데이터 세트도 증류 모델에 사용된다는 것을 보여줍니다. 모든 사람이 R1 증류 모델의 효과를 더 잘 재현할 수 있도록 돕기 위해 우리는 중국 데이터 세트를 오픈 소스로 공개합니다.

이 중국어 데이터 세트의 데이터 분포는 다음과 같습니다.

  • 수학: 총 36,987개의 샘플
  • 시험 : 총 2,440개의 샘플
  • STEM: 총 12,000개의 샘플
  • 일반: 지체술, 논리추론, 소홍서, 지호, 채팅 등을 포함하여 총 58,573개입니다.

필드 설명:

  • 입력: 입력
  • reasoning_content: 생각하다
  • 내용: 출력
  • repo_name: 데이터 소스
Chinese-DeepSeek-R1-Distill-data-110k.torrent
시딩 1다운로드 중 1완료됨 62총 다운로드 횟수 163
  • Chinese-DeepSeek-R1-Distill-data-110k/
    • README.md
      1.74 KB
    • README.txt
      3.48 KB
      • data/
        • Chinese-DeepSeek-R1-Distill-110k.zip
          231.15 MB