使用 vLLM 部署 DeepSeek R1 7B

🔥 超快部署 DeepSeek-R1 7B!vLLM + Open-WebUI 助你一键搞定!🚀

一、教程简介

DeepSeek-R1 是 DeepSeek 于 2025 年推出的高效轻量级语言模型,支持文本生成、对话、翻译、摘要等多种任务。采用知识蒸馏技术,兼顾高性能与低算力需求,适合快速部署与实际应用。

⚡  为什么选择 vLLM 部署?

  • 🚀 超快推理:PagedAttention + FlashInfer,让 LLM 飞起来!
  • 💾 智能内存管理:高效处理长文本,降低显存占用!
  • 🎯 优化内核:支持 GPTQ 、 AWQ 、 INT4/8 等量化,性能拉满!
  • 🌍 兼容 OpenAI API:无缝迁移,直接上手!
  • 🔥 多硬件支持:NVIDIA 、 AMD 、 Intel 、 TPU…想跑哪儿就跑哪儿!

💡 Open-WebUI 让交互更简单!

  • 🌟 Web 端管理,开箱即用!
  • 🎨 直观界面,低门槛部署!
  • 🔗 多模型支持,一站式体验!

本教程预设 DeepSeek-R1-Distill-Qwen-7B 模型作为演示,算力资源采用「单卡 RTX4090」。

二、运行步骤

1. 启动容器后点击 API 地址即可进入 Web 界面(若显示「Bad Gateway」,这表示模型正在初始化,由于模型较大,请等待约 2 分钟后重试。)

2. 进入网页后,即可与模型展开对话

输入账号:admin@123.com

密码:123456

注意:
1. 本教程支持「联网搜索」,该功能开启后,推理速度会变慢,属于正常现象。
2. 后端 vLLM 推理可在 /home/vllm.log 查看

基于 vllm 部署 DeekSeek-R1

常见对话设置

1. Temperature(温度)

  • 控制输出的随机性,范围一般在 0.0-2.0 之间。
  • 低值(如 0.1):更确定,偏向常见词汇。
  • 高值(如 1.5):更随机,可能生成更有创意但不稳定的内容。

2. Top-k Sampling(Top-k 采样)

  • 只从概率最高的 k 个词中采样,排除低概率词汇。
  • k 值小(如 10):更确定,减少偶然性。
  • k 值大(如 50):更多样,增加创新性。

3. Top-p Sampling(Nucleus Sampling,Top-p 采样)

  • 选择累计概率达到 p 的词集,不固定 k 值。
  • 低值(如 0.3):更确定,减少偶然性。
  • 高值(如 0.9):更多样,提升流畅度。

4. Repetition Penalty(重复惩罚)

  • 控制文本重复度,通常在 1.0-2.0 之间。
  • 值高(如 1.5):减少重复,提升可读性。
  • 值低(如 1.0):无惩罚,可能导致模型重复词句。

5. Max Tokens(最大生成长度)

  • 限制模型最多生成的 token 数,避免超长输出。
  • 典型范围:50-4096(依赖具体模型)。

交流探讨

🖌️ 如果大家看到优质项目,欢迎后台留言推荐!另外,我们还建立了教程交流群,欢迎小伙伴们扫码备注【SD 教程】入群探讨各类技术问题、分享应用效果↓