HyperAI초신경

수학/코드/과학/퍼즐을 포괄하는 고품질 추론 데이터 세트가 DeepSeek의 강력한 추론 기능을 재현하는 데 도움이 되도록 요약되었습니다.

特色图像

최근 DeepSeek-R1에 의해 촉발된 추론 모델에 대한 열풍이 여전히 증가하고 있습니다. 1월 31일, OpenAI는 새로운 추론 모델 o3-mini를 출시했습니다. 2월 18일, xAI는 Grok-3 Reasoning Beta와 추론 기능을 갖춘 Grok-3 mini Reasoning을 포함한 Grok 3를 출시했습니다. 2월 25일, Anthropic은 최초의 하이브리드 추론 모델인 Claude 3.7 Sonnet을 출시했습니다.

실제로 동질성이 증가하고 대형 모델 간의 경쟁이 치열해지는 상황에서 추론 능력은 성능을 측정하는 중요한 지표가 되었으며, AI가 AGI로 발전하기 위한 중요한 개발 방향이기도 합니다. 알고리즘 최적화의 한계가 점차 드러나고, 모델 매개변수가 점차 한계까지 압축되면서,데이터의 품질은 모델이 단순한 "답변 기억"에서 심층적인 "논리적 추론"으로 전환될 수 있는지 여부를 결정하는 주요 요소 중 하나가 되었습니다.

추론 데이터 세트를 구성하는 것은 단순히 질문의 집합이 아닙니다. 학습 중에 모델이 정보를 유출하거나 테스트 중에 부정행위를 하는 것을 방지하려면 테스트 세트와 학습 세트 간에 데이터를 엄격하게 분리해야 하며, 질문 유형을 정기적으로 업데이트하기 위한 동적 업데이트 메커니즘을 도입해야 합니다. 수학적 증명이나 코드 생성과 같은 복잡한 작업을 처리할 때, 데이터 세트를 구축할 때 여러 개의 논리적 체인을 신중하게 설계하고, 숨겨진 함정 조건을 교묘하게 설정하고, 문제 해결에서 인간의 시행착오와 사고 과정을 최대한 시뮬레이션하여 모델에 실제 응용 시나리오에 더 가까운 학습 자료를 제공해야 합니다.

DeepSeek이 AIME 수학 경시대회에서 뛰어난 성과를 거둔 것은 그 생생한 예입니다. 이는 OpenThoughts-114k 데이터 세트를 사용합니다.이 문제는 단계별 추론을 요구하고 여러 논리적 사슬을 포함하는 일련의 문제를 다룹니다.엄격한 검증 메커니즘과 똑똑하게 구성된 다단계 추론 구조를 통해 데이터의 정확성과 신뢰성이 보장되는 동시에, 모델은 질문에 답하기 위해 단순히 "기억"에만 의존하지 않고 더 깊은 추론 능력을 학습할 수 있습니다.

요약하자면, DeepSeek의 성공으로 인해 업계에서는 고품질 추론 데이터 세트에 대한 관심이 급증했습니다. 다음,HyperAI는 수학, 코드, 과학, 퍼즐 등 다양한 분야를 포괄하는 가장 인기 있는 추론 데이터 세트를 여러분을 위해 편집했습니다.대규모 모델의 추론 능력을 크게 개선하고자 하는 실무자와 연구자에게 이러한 데이터 세트는 의심할 여지 없이 훌륭한 시작점이 될 것입니다.

더 많은 오픈 소스 데이터 세트를 보려면 클릭하세요.

https://go.hyper.ai/CdPJZ

추론 데이터 세트 요약

1. OpenThoughts-114k 추론 데이터 세트

예상 크기:922.07MB

다운로드 주소:https://go.hyper.ai/SaAit

이 데이터 세트는 Open Thoughts에서 2025년에 공개했으며, 수학, 코드, 과학, 퍼즐과 같은 분야에 초점을 맞추고 있으며, 114,000개의 고품질 샘플을 포함하고 있습니다. 기존의 대규모 모델(예: DeepSeek-R1-Distill-Qwen-32B 및 DeepSeek-R1-Distill-Qwen-7B)보다 수학 및 코드 추론 작업에서 더 나은 성과를 내도록 소규모 추론 모델을 훈련하는 것을 목표로 합니다.

2. Bespoke-Stratos-17k 추론 작업 데이터 세트

예상 크기:125MB

다운로드 주소:https://go.hyper.ai/nLGos

이 데이터 세트는 추론 작업을 위해 특별히 설계된 고품질 데이터 세트입니다. 여기에는 코드, 수학, 과학 퍼즐 등 여러 분야를 포괄하는 질문, 추론 추적 및 답변이 포함되어 있으며, 고성능 추론 모델의 학습을 지원하는 것을 목표로 합니다. 데이터 세트는 3개 부분으로 구성됩니다.

* 프로그래밍 데이터: APP 및 TACO의 5,000개 레코드 * 수학 데이터: NuminaMATH 데이터 세트의 AIME, MATH 및 Olympiads 하위 세트의 10,000개 레코드

* 과학 및 퍼즐 데이터: STILL-2의 1,000개 데이터 포인트

3. Dolphin-R1 추론 데이터 세트

예상 크기:2.24GB

다운로드 주소:https://go.hyper.ai/grwUo

Dolphin-R1 추론 데이터 세트에는 약 80만 개의 샘플이 포함되어 있습니다. 데이터 소스에는 DeepSeek-R1, Gemini Flash, Dolphin Chat에서 제공한 200,000개의 샘플이 포함됩니다. DeepSeek-R1과 유사한 추론 모델을 훈련하기 위해 고품질 샘플을 제공하는 것을 목표로 합니다. 이러한 샘플은 주로 수학, 논리, 코딩과 같은 복잡한 작업을 포함한 추론 작업에서 모델의 성능을 개선하는 데 사용됩니다.

4. LIMO 수학적 추론 벤치마크 데이터 세트

예상 크기:4.22MB

다운로드 주소:https://go.hyper.ai/0p72o

LIMO 수학적 추론 벤치마크 데이터 세트에는 고품질 수학적 추론 샘플이 817개만 포함되어 있습니다. 고품질의 훈련 샘플을 신중하게 선택하여 대규모 모델의 수학적 추론 능력을 훈련하고 평가하는 것을 목표로 합니다. 이 데이터 세트는 주로 대규모 모델의 수학적 문제 해결 능력을 훈련하고 수학 시험 및 경시대회 문제(예: AIME, MATH-500 등)에서 해당 모델의 성과를 개선하는 데 사용됩니다.

5. NuminaMath-1.5 수학적 추론 데이터 세트

예상 크기:446.62MB

다운로드 주소:https://go.hyper.ai/qVAgO

NuminaMath-1.5 수학적 추론 데이터 세트는 수학 교육 및 경쟁 문제 분야에 적합합니다. 약 90만 개의 고품질 경쟁 수준의 수학 문제가 포함되어 있으며, 각 문제의 해답은 Chain of Thought(CoT) 형식으로 제공됩니다. 이러한 문제는 중국 고등학교 수학 연습문제와 미국 및 국제 수학 올림피아드 경연대회 문제에서 유래되었습니다.

6. OpenR1-Math-220k 수학적 추론 데이터 세트

예상 크기:8.44GB

다운로드 주소:https://go.hyper.ai/nuhSv

OpenR1-Math-220k는 DeepSeek R1 합성 데이터의 공백을 메우기 위해 Open R1 팀이 2025년에 출시한 대규모 수학적 추론 데이터 세트입니다. 이 데이터 세트에는 220,000개의 고품질 수학 문제와 그 추론 궤적이 포함되어 있으며, 이는 DeepSeek R1이 생성한 800,000개의 추론 궤적에서 파생되었습니다.

7. 중국 DeepSeek R1 Distill 데이터

예상 크기:376MB

다운로드 주소:https://go.hyper.ai/8Podu

이 데이터 세트는 중국 오픈 소스 순수 R1 데이터 세트입니다. 해당 데이터셋에는 수학 데이터뿐만 아니라, 총 11만 개에 달하는 많은 양의 일반 유형 데이터가 포함되어 있습니다. 여기에는 다음이 포함됩니다.

* 수학: 36,987개 샘플

* 시험 : 2,440개 샘플

* STEM: 12,000개 샘플

* 일반: 지체단어, 논리적 추론, 소홍서, 지호, 채팅 등을 포함한 58,573개 샘플


위는 HyperAI가 수집한 추론 데이터 세트입니다. hyper.ai 공식 웹사이트에 포함시키고 싶은 리소스가 있다면, 메시지를 남기거나 기고문을 제출하여 알려주세요!

HyperAI 소개

HyperAI(hyper.ai)는 중국을 선도하는 인공지능 및 고성능 컴퓨팅 커뮤니티입니다.우리는 중국 데이터 과학 분야의 인프라가 되고 국내 개발자들에게 풍부하고 고품질의 공공 리소스를 제공하기 위해 최선을 다하고 있습니다. 지금까지 우리는 다음과 같습니다.

* 1200개 이상의 공개 데이터 세트에 대한 국내 가속 다운로드 노드 제공

* 300개 이상의 고전적이고 인기 있는 온라인 튜토리얼이 포함되어 있습니다.

* 100개 이상의 AI4Science 논문 사례 해석

* 500개 이상의 관련 용어 검색 지원

* 중국에서 최초의 완전한 Apache TVM 중국어 문서 호스팅

학습 여정을 시작하려면 공식 웹사이트를 방문하세요.

https://hyper.ai