نشر نماذج سلسلة Qwen3 باستخدام vLLM+Open-webUI
1. مقدمة البرنامج التعليمي

يستخدم هذا البرنامج التعليمي الموارد لبطاقة RTX_4090 واحدة.
👉يوفر المشروع 5 نماذج من النماذج:
- Qwen3-14B (أحتاج إلى التبديل إلى بطاقة واحدة RTX A6000)
- Qwen3-8B (الاستخدام الافتراضي)
- كوين 3-4ب
- كوين3-1.7 ب
- كوين3-0.6 ب
انقر للقفز:برنامج تعليمي لنشر Qwen3-30B-A3B بنقرة واحدة.
تم إصدار مشروع Qwen3 بواسطة فريق Qwen التابع لشركة Alibaba في عام 2025. التقرير الفني ذو الصلة هو "كوين 3: فكر بعمق، تصرف أسرع".
Qwen3 هو الجيل الأحدث من نماذج اللغة الكبيرة في سلسلة Qwen، حيث يوفر نماذج كثيفة شاملة ونماذج مزيج من الخبراء (MoE). استناداً إلى تجربة تدريبية غنية، حقق Qwen3 تقدماً كبيراً في التفكير، واتباع التعليمات، وقدرات الوكيل، ودعم اللغات المتعددة. تعتبر سيناريوهات تطبيق Qwen3 واسعة جدًا. ويدعم معالجة النصوص والصور والصوت والفيديو، ويمكنه تلبية احتياجات إنشاء المحتوى المتعدد الوسائط والمهام عبر الوسائط. في التطبيقات على مستوى المؤسسة، تمكن قدرات الوكيل في Qwen3 ودعم اللغات المتعددة من التعامل مع المهام المعقدة مثل التشخيص الطبي وتحليل المستندات القانونية وأتمتة خدمة العملاء. بالإضافة إلى ذلك، تعد النماذج الصغيرة مثل Qwen3-0.6B مناسبة للنشر على الأجهزة الطرفية مثل الهواتف المحمولة، مما يؤدي إلى توسيع سيناريوهات تطبيقها بشكل أكبر.
يحتوي الإصدار الأحدث Qwen3 على الميزات التالية:
- نماذج الخبراء الكثيفة والمختلطة بالحجم الكامل: 0.6B، 1.7B، 4B، 8B، 14B، 32B و30B-A3B، 235B-A22B
- يدعم التبديل السلس بين وضع التفكير (للاستدلال المنطقي المعقد والرياضيات والترميز) ووضع عدم التفكير (للمحادثات العامة الفعالة)، مما يضمن الأداء الأمثل في السيناريوهات المختلفة.
- تم تحسين قدرات التفكير بشكل كبير، متجاوزة نموذج التعليم QwQ (في وضع التفكير) ونموذج التعليم Qwen2.5 السابق (في وضع عدم التفكير) في الرياضيات وتوليد التعليمات والمنطق السليم.
- يتوافق بشكل ممتاز مع التفضيلات البشرية، ويتفوق في الكتابة الإبداعية، ولعب الأدوار، والمحادثات متعددة الأدوار، واتباع الأوامر، مما يوفر تجربة محادثة أكثر طبيعية وجذابة وغامرة.
- يتفوق في قدرات الوكيل الذكي، ويمكنه دمج الأدوات الخارجية بدقة في كل من الأوضاع المفكرة وغير المفكرة، ويقود نماذج المصدر المفتوح في المهام المعقدة القائمة على الوكيل.
- يدعم أكثر من 100 لغة ولهجة، ويتمتع بقدرات قوية على فهم اللغات المتعددة والاستدلال واتباع الأوامر وتوليدها.
2. خطوات التشغيل
1. بعد بدء تشغيل الحاوية، انقر فوق عنوان API للدخول إلى واجهة الويب
إذا لم يتم عرض "النموذج"، فهذا يعني أنه يتم تهيئة النموذج. نظرًا لأن النموذج كبير الحجم، يرجى الانتظار لمدة 1-2 دقيقة وتحديث الصفحة.

2. بعد الدخول إلى صفحة الويب، يمكنك بدء محادثة مع النموذج
كيفية الاستخدام

فيما يلي وصف محسّن لطريقة استدعاء API، مع هيكل أكثر وضوحًا وتفاصيل عملية مضافة:
3. دليل استدعاء واجهة برمجة التطبيقات OpenAI
1. الحصول على التكوين الأساسي
# 必要参数配置
BASE_URL = "<API 地址>/v1" # 生产环境
MODEL_NAME = "Qwen3-30B-A3B" # 默认模型名称
API_KEY = "Empty" # 未设置 API_KEY
احصل على عنوان API

2. طرق الاتصال المختلفة
2.1 استدعاء بايثون الأصلي
import openai
# 创建 OpenAI 客户端实例
client = openai.OpenAI(
api_key=API_KEY, # 请替换为你的实际 API Key
base_url=BASE_URL # 替换为你的实际 base_url
)
# 发送聊天消息
response = client.chat.completions.create(
model=MODEL_NAME,
messages=[
{"role": "user", "content": "你好!"}
],
temperature=0.7,
)
# 输出回复内容
print(response.choices[0].message.content)
# 方法 2:requests 库(更灵活)
import requests
headers = {
"Authorization": f"Bearer {API_KEY}",
"Content-Type": "application/json"
}
data = {
"model": MODEL_NAME,
"messages": [{"role": "user", "content": "你好!"}]
}
response = requests.post(f"{BASE_URL}/chat/completions", headers=headers, json=data)
2.2 تكامل أدوات التطوير
إذا كنت تستخدم VScode لتثبيت الإصدار الرسمي CLINE
المكونات الإضافية

2.3 استدعاء cURL
curl <BASE_URL>/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": <MODEL_NAME>,
"messages": [{"role": "user", "content": "你好!"}]
}'
4. تبديل النماذج
يستخدم هذا البرنامج التعليمي نموذج Qwen3-8B بشكل افتراضي. للتبديل إلى نموذج آخر، يرجى اتباع الخطوات التالية:
1. تحقق من متطلبات بطاقة الرسومات (الحد الأدنى للتكوين)
- Qwen3-14B:نفيديا A6000
- Qwen3-8B:RTX 4090(تقصير)
- Qwen3-4B: RTX 4090
- Qwen3-1.7B: RTX 4090
- Qwen3-0.6B: RTX 4090
يلاحظ:
- يتطلب الطراز 14B ذاكرة فيديو A6000 (48 جيجابايت)، يرجى التأكد من تبديل موارد الحوسبة.
- يمكن تشغيل 8B وما دون على RTX 4090 (24 جيجابايت VRAM).
2. خطوات نموذج التبديل
2.1 إغلاق خدمة النموذج الحالية
قم بتشغيل الأمر التالي في المحطة الطرفية للعثور على vllm
العملية والإغلاق:
ps aux | grep vllm
ابحث عن معرف العملية (PID) ثم قم بتنفيذ:
kill -9 [PID]

2.2 بدء نموذج جديد
على سبيل المثال،ابدأ Qwen3-4B:
vllm serve /input0/Qwen3-4B \
--tensor_parallel_size 1 \
--host 0.0.0.0 \
--port 8080 \
--gpu-memory-utilization 0.95 \
--max-num-seqs 16 \
--served-model-name Qwen3-4B \
--enable-reasoning \
--reasoning-parser deepseek_r1

ملاحظات التعديل:
/input0/Qwen3-4B
→ استبدل بمسار النموذج المستهدف (مثلQwen3-1.7B
).--served-model-name
→ التغيير إلى اسم النموذج المقابل (مثلQwen3-1.7B
).
بمجرد الانتهاء، سيكون النموذج الجديد جاهزًا للاستخدام! 🚀
التبادل والمناقشة
🖌️ إذا رأيت مشروعًا عالي الجودة، فيرجى ترك رسالة في الخلفية للتوصية به! بالإضافة إلى ذلك، قمنا أيضًا بتأسيس مجموعة لتبادل الدروس التعليمية. مرحبًا بالأصدقاء لمسح رمز الاستجابة السريعة وإضافة [برنامج تعليمي SD] للانضمام إلى المجموعة لمناقشة المشكلات الفنية المختلفة ومشاركة نتائج التطبيق↓

معلومات الاستشهاد
شاكر زد في ليو لإنتاج هذا البرنامج التعليمي، معلومات مرجعية للمشروع هي كما يلي:
@misc{glm2024chatglm,
title={ChatGLM: A Family of Large Language Models from GLM-130B to GLM-4 All Tools},
author={Team GLM and Aohan Zeng and Bin Xu and Bowen Wang and Chenhui Zhang and Da Yin and Diego Rojas and Guanyu Feng and Hanlin Zhao and Hanyu Lai and Hao Yu and Hongning Wang and Jiadai Sun and Jiajie Zhang and Jiale Cheng and Jiayi Gui and Jie Tang and Jing Zhang and Juanzi Li and Lei Zhao and Lindong Wu and Lucen Zhong and Mingdao Liu and Minlie Huang and Peng Zhang and Qinkai Zheng and Rui Lu and Shuaiqi Duan and Shudan Zhang and Shulin Cao and Shuxun Yang and Weng Lam Tam and Wenyi Zhao and Xiao Liu and Xiao Xia and Xiaohan Zhang and Xiaotao Gu and Xin Lv and Xinghan Liu and Xinyi Liu and Xinyue Yang and Xixuan Song and Xunkai Zhang and Yifan An and Yifan Xu and Yilin Niu and Yuantao Yang and Yueyan Li and Yushi Bai and Yuxiao Dong and Zehan Qi and Zhaoyu Wang and Zhen Yang and Zhengxiao Du and Zhenyu Hou and Zihan Wang},
year={2024},
eprint={2406.12793},
archivePrefix={arXiv},
primaryClass={id='cs.CL' full_name='Computation and Language' is_active=True alt_name='cmp-lg' in_archive='cs' is_general=False description='Covers natural language processing. Roughly includes material in ACM Subject Class I.2.7. Note that work on artificial languages (programming languages, logics, formal systems) that does not explicitly address natural-language issues broadly construed (natural-language processing, computational linguistics, speech, text retrieval, etc.) is not appropriate for this area.'}
}