@misc{deepseekai2025deepseekr1incentivizingreasoningcapability, title={DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning}, author={DeepSeek-AI}, year={2025}, eprint={2501.12948}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2501.12948}, }

날짜

8달 전

태그

DeepSeek

RTX 5090

논문 URL

2501.12948

라이선스

MIT

GitHub

deepseek-ai/DeepSeek-R192.0k

1. 튜토리얼 소개

DeepSeek-R1-Distill-Llama-70B는 DeepSeek이 2025년에 공개한 오픈소스 대규모 언어 모델로, 700억 개의 매개변수 규모를 자랑합니다. Llama3.3-70B-Instruct 기반으로 학습되었으며, 강화 학습과 증류 기법을 활용하여 추론 성능을 향상시킵니다. Llama 시리즈 모델의 장점을 그대로 계승할 뿐만 아니라 추론 기능을 더욱 최적화하여 특히 수학, 코드 및 논리 추론 작업에서 탁월한 성능을 발휘합니다. DeepSeek 시리즈의 고성능 버전으로서, 여러 벤치마크 테스트에서 탁월한 성능을 보였습니다. 또한, 이 모델은 DeepSeek AI가 제공하는 추론 강화 모델로, 모바일 기기, 엣지 컴퓨팅, 온라인 추론 서비스 등 다양한 애플리케이션 시나리오를 지원하여 응답 속도를 향상시키고 운영 비용을 절감합니다. 매우 강력한 추론 및 의사 결정 기능을 갖추고 있으며, 고급 AI 비서 및 과학 연구 분석 분야에서 매우 전문적이고 심층적인 분석 결과를 제공할 수 있습니다. 예를 들어, 의학 연구에서 버전 70B는 방대한 양의 의료 데이터를 분석하여 질병 연구에 귀중한 참고 자료를 제공할 수 있습니다.

本教程使用 Ollama + Open WebUI 部署 DeepSeek-R1-Distill-Qwen-70B 作为演示，算力资源采用「单卡 A6000」。

2. 작업 단계

컨테이너를 시작한 후 API 주소를 클릭하여 웹 인터페이스에 접속합니다. ("Bad Gateway"가 표시되면 모델이 초기화 중임을 의미합니다. 모델 용량이 크므로 약 5분 정도 기다린 후 다시 시도해 주세요.) 2. 웹 페이지에 접속하면 모델과 대화를 시작할 수 있습니다!

웹페이지에 접속 후 모델과 대화를 시작할 수 있습니다.

일반적인 대화 설정

1. 온도

일반적으로 0.0~2.0 범위 내에서 출력의 무작위성을 제어합니다.
낮은 값(예: 0.1): 더 확실하고, 흔한 단어에 편향되어 있습니다.
높은 값(예: 1.5): 더 무작위적이고 잠재적으로 더 창의적이지만 불규칙한 콘텐츠입니다.

2. Top-k 샘플링

확률이 가장 높은 k개 단어에서만 샘플을 추출하고, 확률이 낮은 단어는 제외합니다.
k는 작습니다(예: 10): 확실성은 더 크고 무작위성은 더 적습니다.
k가 큽니다(예: 50): 다양성이 더 커지고 혁신도 더 커집니다.

3. Top-p 샘플링(핵 샘플링, Top-p 샘플링)

누적 확률이 p에 도달하는 단어 집합을 선택하고 k의 값은 고정하지 마세요.
낮은 값(예: 0.3): 확실성은 더 크고 무작위성은 더 적습니다.
높은 값(예: 0.9): 다양성이 높아지고 유창성이 향상되었습니다.

4. 반복 페널티

일반적으로 1.0~2.0 사이로 텍스트 반복률을 제어합니다.
높은 값(예: 1.5): 반복을 줄이고 가독성을 향상시킵니다.
낮은 값(예: 1.0): 페널티는 없지만, 모델이 단어와 문장을 반복할 수 있습니다.

5. 최대 토큰(최대 생성 길이)

모델이 생성하는 토큰의 최대 수를 제한하여 출력이 지나치게 길어지는 것을 방지합니다.
일반적인 범위: 50-4096(특정 모델에 따라 다름).

인용하다

@misc{deepseekai2025deepseekr1incentivizingreasoningcapability,
      title={DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning}, 
      author={DeepSeek-AI},
      year={2025},
      eprint={2501.12948},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2501.12948}, 
}

이 노트북은 커뮤니티 사용자가 기여한 것으로 교육 및 정보 제공 목적으로만 사용됩니다. 저작권 침해와 관련된 콘텐츠가 있는 경우 [email protected]로 문의하시면 신속하게 검토 및 삭제 처리하겠습니다.

Notebook 개요

수준

입문

주제

생성형 AI LLM 엔지니어링

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

Command Palette

DeepSeek-R1-70B의 원클릭 배포

1. 튜토리얼 소개

2. 작업 단계

일반적인 대화 설정

1. 온도

2. Top-k 샘플링

3. Top-p 샘플링(핵 샘플링, Top-p 샘플링)

4. 반복 페널티

5. 최대 토큰(최대 생성 길이)

인용하다

Notebook 개요

AI로 AI 구축

HyperAI Newsletters

Command Palette

DeepSeek-R1-70B의 원클릭 배포

1. 튜토리얼 소개

2. 작업 단계

일반적인 대화 설정

1. 온도

2. Top-k 샘플링

3. Top-p 샘플링(핵 샘플링, Top-p 샘플링)

4. 반복 페널티

5. 최대 토큰(최대 생성 길이)

인용하다

Notebook 개요

관련 노트북

Mistral-Medium-3.5-128B의 원클릭 배포

DeepSeek-V4-Flash를 원클릭으로 설치

Qwen3.6-27B의 원클릭 배포

Nemotron-Cascade-2-30B-A3B를 원클릭으로 설치

gemma-4-26B-A4B-it의 원클릭 배포

Gemma-4-31B-it의 원클릭 배포

AI로 AI 구축

HyperAI Newsletters

Command Palette

DeepSeek-R1-70B의 원클릭 배포

1. 튜토리얼 소개

2. 작업 단계

일반적인 대화 설정

1. 온도

2. Top-k 샘플링

3. Top-p 샘플링(핵 샘플링, Top-p 샘플링)

4. 반복 페널티

5. 최대 토큰(최대 생성 길이)

인용하다

Notebook 개요

관련 노트북

Mistral-Medium-3.5-128B의 원클릭 배포

DeepSeek-V4-Flash를 원클릭으로 설치

Qwen3.6-27B의 원클릭 배포

Nemotron-Cascade-2-30B-A3B를 원클릭으로 설치

gemma-4-26B-A4B-it의 원클릭 배포

Gemma-4-31B-it의 원클릭 배포

AI로 AI 구축

HyperAI Newsletters

관련 노트북

Mistral-Medium-3.5-128B의 원클릭 배포

DeepSeek-V4-Flash를 원클릭으로 설치

Qwen3.6-27B의 원클릭 배포

Nemotron-Cascade-2-30B-A3B를 원클릭으로 설치

gemma-4-26B-A4B-it의 원클릭 배포

Gemma-4-31B-it의 원클릭 배포

관련 노트북

Mistral-Medium-3.5-128B의 원클릭 배포

DeepSeek-V4-Flash를 원클릭으로 설치

Qwen3.6-27B의 원클릭 배포

Nemotron-Cascade-2-30B-A3B를 원클릭으로 설치

gemma-4-26B-A4B-it의 원클릭 배포

Gemma-4-31B-it의 원클릭 배포