HyperAI초신경

AM-DeepSeek-R1-Distilled-1.4M 대규모 일반 추론 작업 데이터 세트

날짜

2달 전

크기

47.22 GB

기관

발행 주소

github.com

AM-DeepSeek-R1-Distilled-1.4M은 am-team이 2025년 3월에 발표한 대규모 일반 추론 과제 데이터셋입니다. 관련 논문 결과는 다음과 같습니다.대규모 언어 모델 학습을 강화하는 140만 개의 오픈소스 증류 추론 데이터 세트".

이 데이터 세트에는 수학, 코드, 과학 Q&A, 일반 채팅을 포함한 다양한 질문 유형을 포괄하는 약 140만 개의 데이터 항목이 포함되어 있습니다. 이러한 데이터는 신중하게 선택되고, 의미적으로 중복이 제거되고, 엄격하게 정리되어 데이터의 높은 품질과 난이도가 보장됩니다. 데이터 세트의 각 항목에는 풍부한 사고 추적이 포함되어 있습니다. 이는 모델에 추론 과정의 예를 제공할 뿐만 아니라 모델이 복잡한 추론 작업을 더 잘 이해하고 솔루션을 생성하는 데 도움이 됩니다. AM-DeepSeek-R1-Distilled-1.4M 데이터 세트의 출시는 자연어 처리 및 추론 작업, 특히 대규모 언어 모델의 추론 기능을 훈련하고 최적화하는 데 강력한 도구를 제공하는 것을 목표로 합니다. 이는 모델이 수학, 코드, 과학적 질문 답변 등의 핵심 분야에서 성능을 개선하는 데 도움이 되어 다양하고 복잡한 추론 작업에 더 잘 대처할 수 있도록 합니다.

AM-DeepSeek-R1-Distilled-1.4M.torrent
시딩 1다운로드 중 0완료됨 0총 다운로드 횟수 2
  • AM-DeepSeek-R1-Distilled-1.4M/
    • README.md
      1.8 KB
    • README.txt
      3.6 KB
      • data/
        • main.zip
          10.32 GB
          • main/
            • README.md
              10.32 GB
            • am_0.5M.jsonl
              23.84 GB
            • am_0.5M.jsonl.zst
              25.76 GB
            • am_0.9M.jsonl
              44.19 GB
            • am_0.9M.jsonl.zst
              47.19 GB
            • am_0.9M_sample_1k.jsonl
              47.21 GB
            • am_0.9M_sample_1k.jsonl.zst
              47.22 GB