vLLM을 사용하여 DeepSeek R1 7B 배포
🔥 DeepSeek-R1 7B의 초고속 배포! vLLM + Open-WebUI를 사용하면 클릭 한 번으로 모든 작업을 완료할 수 있습니다!🚀
1. 튜토리얼 소개
DeepSeek-R1은 DeepSeek이 2025년에 출시한 효율적이고 가벼운 언어 모델로, 텍스트 생성, 대화, 번역, 요약 등 여러 작업을 지원합니다. 이 기술은 지식 증류 기술을 채택하여 고성능과 낮은 컴퓨팅 파워 요구 사항을 모두 고려하였으며, 신속한 배포와 실용적인 응용 분야에 적합합니다.
⚡ 왜 vLLM 배포를 선택해야 하나요?
- 🚀 초고속 추론: PagedAttention + FlashInfer, LLM을 날려버리자!
- 💾 스마트한 메모리 관리: 긴 텍스트를 효율적으로 처리하고 비디오 메모리 사용량을 줄이세요!
- 🎯 커널 최적화: GPTQ, AWQ, INT4/8 및 기타 양자화를 지원하고 성능을 극대화합니다!
- 🌍 OpenAI API와 호환: 원활한 마이그레이션, 지금 바로 시작하세요!
- 🔥 다양한 하드웨어 지원: NVIDIA, AMD, Intel, TPU…원하는 곳 어디에서나 실행하세요!
💡 Open-WebUI로 상호작용이 더욱 쉬워졌습니다!
- 🌟 웹 기반 관리, 바로 사용 가능!
- 🎨 직관적인 인터페이스, 낮은 배포 임계값!
- 🔗다양한 모델 지원, 원스톱 경험!
이 튜토리얼에서는 DeepSeek-R1-Distill-Qwen-7B 모델을 데모로 사용하고, 사용된 컴퓨팅 리소스는 "단일 RTX4090 카드"입니다.
2. 작업 단계
1. 컨테이너를 시작한 후 API 주소를 클릭하여 웹 인터페이스에 접속합니다. ("잘못된 게이트웨이"가 표시되면 모델이 초기화 중임을 의미합니다. 모델 용량이 크므로 약 2분 정도 기다린 후 다시 시도해 주세요.)

2. 웹페이지에 접속 후 모델과 대화를 시작할 수 있습니다.
계좌번호를 입력하세요:admin@123.com
비밀번호: 123456
알아채다:
1. 이 튜토리얼은 "온라인 검색"을 지원합니다. 이 기능을 켜면 추론 속도가 느려지는데, 이는 정상적인 현상입니다.
2. 백엔드 vLLM 추론은 /home/vllm.log에서 볼 수 있습니다.

일반적인 대화 설정
1. 온도
- 일반적으로 0.0~2.0 범위 내에서 출력의 무작위성을 제어합니다.
- 낮은 값(예: 0.1): 더 확실하고, 흔한 단어에 편향되어 있습니다.
- 높은 값(예: 1.5): 더 무작위적이고 잠재적으로 더 창의적이지만 불규칙한 콘텐츠입니다.
2. Top-k 샘플링
- 가장 높은 확률을 가진 k개 단어만 샘플링하고 확률이 낮은 단어는 제외합니다.
- k는 작습니다(예: 10): 확실성은 더 크고 무작위성은 더 적습니다.
- k가 큽니다(예: 50): 다양성이 더 커지고 혁신도 더 커집니다.
3. Top-p 샘플링(핵 샘플링, Top-p 샘플링)
- 누적 확률이 p에 도달하는 단어 집합을 선택하고 k의 값은 고정하지 마세요.
- 낮은 값(예: 0.3): 확실성은 더 크고 무작위성은 더 적습니다.
- 높은 값(예: 0.9): 다양성이 높아지고 유창성이 향상되었습니다.
4. 반복 페널티
- 일반적으로 1.0~2.0 사이로 텍스트 반복률을 제어합니다.
- 높은 값(예: 1.5): 반복을 줄이고 가독성을 향상시킵니다.
- 낮은 값(예: 1.0): 페널티는 없지만, 모델이 단어와 문장을 반복할 수 있습니다.
5. 최대 토큰(최대 생성 길이)
- 모델이 생성하는 토큰의 최대 수를 제한하여 출력이 지나치게 길어지는 것을 방지합니다.
- 일반적인 범위:50-4096(특정 모델에 따라 다름).
교류 및 토론
🖌️ 고품질 프로젝트를 발견하시면, 백그라운드에 메시지를 남겨 추천해주세요! 또한, 튜토리얼 교환 그룹도 만들었습니다. 친구들의 QR코드 스캔과 [SD 튜토리얼] 댓글을 통해 그룹에 가입하여 다양한 기술 이슈에 대해 논의하고 신청 결과를 공유해 주시기 바랍니다.↓