🔥 超快部署 DeepSeek-R1 7B!vLLM + Open-WebUI 助你一键搞定!🚀
一、教程简介
DeepSeek-R1 是 DeepSeek 于 2025 年推出的高效轻量级语言模型,支持文本生成、对话、翻译、摘要等多种任务。采用知识蒸馏技术,兼顾高性能与低算力需求,适合快速部署与实际应用。
⚡ 为什么选择 vLLM 部署?
- 🚀 超快推理:PagedAttention + FlashInfer,让 LLM 飞起来!
- 💾 智能内存管理:高效处理长文本,降低显存占用!
- 🎯 优化内核:支持 GPTQ 、 AWQ 、 INT4/8 等量化,性能拉满!
- 🌍 兼容 OpenAI API:无缝迁移,直接上手!
- 🔥 多硬件支持:NVIDIA 、 AMD 、 Intel 、 TPU…想跑哪儿就跑哪儿!
💡 Open-WebUI 让交互更简单!
- 🌟 Web 端管理,开箱即用!
- 🎨 直观界面,低门槛部署!
- 🔗 多模型支持,一站式体验!
本教程预设 DeepSeek-R1-Distill-Qwen-7B 模型作为演示,算力资源采用「单卡 RTX4090」。
二、运行步骤
1. 启动容器后点击 API 地址即可进入 Web 界面(若显示「Bad Gateway」,这表示模型正在初始化,由于模型较大,请等待约 2 分钟后重试。)
2. 进入网页后,即可与模型展开对话
输入账号:admin@123.com
密码:123456
注意:
1. 本教程支持「联网搜索」,该功能开启后,推理速度会变慢,属于正常现象。
2. 后端 vLLM 推理可在 /home/vllm.log 查看
基于 vllm 部署 DeekSeek-R1
常见对话设置
1. Temperature(温度)
- 控制输出的随机性,范围一般在 0.0-2.0 之间。
- 低值(如 0.1):更确定,偏向常见词汇。
- 高值(如 1.5):更随机,可能生成更有创意但不稳定的内容。
2. Top-k Sampling(Top-k 采样)
- 只从概率最高的 k 个词中采样,排除低概率词汇。
- k 值小(如 10):更确定,减少偶然性。
- k 值大(如 50):更多样,增加创新性。
3. Top-p Sampling(Nucleus Sampling,Top-p 采样)
- 选择累计概率达到 p 的词集,不固定 k 值。
- 低值(如 0.3):更确定,减少偶然性。
- 高值(如 0.9):更多样,提升流畅度。
4. Repetition Penalty(重复惩罚)
- 控制文本重复度,通常在 1.0-2.0 之间。
- 值高(如 1.5):减少重复,提升可读性。
- 值低(如 1.0):无惩罚,可能导致模型重复词句。
5. Max Tokens(最大生成长度)
- 限制模型最多生成的 token 数,避免超长输出。
- 典型范围:50-4096(依赖具体模型)。
交流探讨
🖌️ 如果大家看到优质项目,欢迎后台留言推荐!另外,我们还建立了教程交流群,欢迎小伙伴们扫码备注【SD 教程】入群探讨各类技术问题、分享应用效果↓ 