نشر vLLM+Open WebUI QwenLong-L1-32B
1. مقدمة البرنامج التعليمي

QwenLong-L1-32B هو نموذج استدلال نصي طويل، أصدره مختبر تونغي ومجموعة علي بابا في 26 مايو 2025. يُعد هذا النموذج أول نموذج استدلال نصي طويل قائم على تدريب التعلم التعزيزي (RL). يركز هذا النموذج على حل مشاكل ضعف الذاكرة والارتباك المنطقي التي تواجهها النماذج الكبيرة التقليدية عند معالجة سياقات فائقة الطول (مثل 120,000 رمز). يتخطى هذا النموذج القيود السياقية للنماذج الكبيرة التقليدية، ويوفر حلولاً منخفضة التكلفة وعالية الأداء لسيناريوهات عالية الدقة مثل التمويل والقانون. نتائج البحث ذات الصلة هي:QwenLong-L1: نحو نماذج استدلالية كبيرة ذات سياق طويل مع التعلم التعزيزي".
يستخدم هذا البرنامج التعليمي موارد RTX A6000 ثنائية البطاقة.
2. أمثلة المشاريع

3. خطوات التشغيل
1. بعد بدء تشغيل الحاوية، انقر فوق عنوان API للدخول إلى واجهة الويب
إذا لم يتم عرض "النموذج"، فهذا يعني أنه يتم تهيئة النموذج. نظرًا لأن النموذج كبير الحجم، يرجى الانتظار لمدة 2-3 دقائق وتحديث الصفحة.

2. بعد الدخول إلى صفحة الويب، يمكنك بدء محادثة مع النموذج
كيفية الاستخدام

4. المناقشة
🖌️ إذا رأيت مشروعًا عالي الجودة، فيرجى ترك رسالة في الخلفية للتوصية به! بالإضافة إلى ذلك، قمنا أيضًا بتأسيس مجموعة لتبادل الدروس التعليمية. مرحبًا بالأصدقاء لمسح رمز الاستجابة السريعة وإضافة [برنامج تعليمي SD] للانضمام إلى المجموعة لمناقشة المشكلات الفنية المختلفة ومشاركة نتائج التطبيق↓

معلومات الاستشهاد
شكرًا لمستخدم Github xxxجججج1 نشر هذا البرنامج التعليمي. معلومات الاستشهاد لهذا المشروع هي كما يلي:
@article{wan2025qwenlongl1,
title={QwenLong-L1: : Towards Long-Context Large Reasoning Models with Reinforcement Learning},
author={Fanqi Wan, Weizhou Shen, Shengyi Liao, Yingcheng Shi, Chenliang Li, Ziyi Yang, Ji Zhang, Fei Huang, Jingren Zhou, Ming Yan},
journal={arXiv preprint arXiv:2505.17667},
year={2025}
}