HyperAI
Back to Headlines

العنوان الجديد: تدريب نموذج ذكاء اصطناعي على مهام طويلة المدى في الطرفية باستخدام التعلم التعزيزي، وتحقيق أفضل أداء لنموذج Qwen3 في مختبر Stanford

منذ 4 أيام

في إطار مشروع "GitHub - Danau5tin/terminal-bench-rl"، تم تطوير نموذج تدريب لنموذج لغة كبير (Qwen3-32B) باستخدام التعلم بالتعزيز (Reinforcement Learning) لتحسين قدرته على تنفيذ المهام المعقدة في واجهة الطرف (Terminal) بشكل طويل الأمد. المشروع يعتمد على إطار "rLLM" الذي طورته "UC Berkeley Sky Lab"، ويضيف بيئات وبنية تحتية مخصصة لتدريب النماذج في مهام تتعلق بالبرمجة والصيانة النظامية. تم تنفيذ تدريب النموذج على معدات حاسوبية مكلفة، حيث تم استخدام 32 وحدة معالجة رسومية (H100) عبر 4 عقد معدنية (bare metal)، مما يُقدّر بقيمة تصل إلى مليون دولار. ومع ذلك، نظرًا للتكاليف المرتفعة، لم يتمكن المطور من إجراء تدريب طويل الأمد، بل تم اختبار النموذج على أنظمة أقل تكلفة مثل 16 وحدة H100 و8 وحدات H100، وصولًا إلى 2 وحدة A100. في أطول تدريب، تم تدريب نموذج Qwen3-8B على وحدة واحدة بطاقة A100 لمدة تزيد عن 60 خطوة. الهدف من المشروع هو التصنيف في "Terminal Bench Leaderboard"، وهو معيار أنشأتته جامعة ستانفورد ومختبر لاود. من خلال تحسين الأوامر وتصميم أدوات مخصصة، تمكن النموذج من التفوق على نماذج مثل "Terminus-Qwen3-235B-30A MoE" من ستانفورد، و"Deepseek R1"، و"GPT-4.1 with Codex". حقق النموذج في تقييمه نسبة 13.75%، مما جعله يحتل المرتبة 19 في القائمة. النظام يعتمد على بيئة مُستقلة (Docker) لكل تجربة، حيث يتم توليد مسارات متعددة (rollouts) لكل مهمة، وتنفيذها بشكل منفصل. بعد الانتهاء، تُستخدم وظائف الاختبار (test_functions) لحساب التقييم، ويتم حذف البيئة بعد الانتهاء من كل مسار. كما تم تطوير نظام تقييم لنموذج "LLM-as-a-Judge" لتقديم ملاحظات ديناميكية خلال التدريب، وتم اختبار عدة نماذج لتقييمها مثل "Claude Sonnet 4" و"Qwen3 Coder" و"Kimi K2". يُعتبر هذا المشروع مساهمة في تطوير نماذج قادرة على التفاعل مع واجهات الطرف بشكل فعّال، من خلال تحسين الأدوات المقدمة للنموذج وتصميم بيئة تدريب موثوقة. كما أن النموذج يدعم التبديل بين نماذج "LLM-Judge" أثناء التدريب، مما يساعد في تجنب التحميل الزائد أو تجاوز الحدود الزمنية. النموذج تم تدريبه باستخدام خوارزمية "Group Relative Policy Optimization (GRPO)"، التي تُساعد النموذج على تعلم المهام المعقدة من خلال مقارنة إجاباته مع مجموعة من الإجابات الأخرى. كما أن المشروع يحتوي على 331 مهمة تدريبية تتراوح من السهولة إلى الصعوبة الشديدة، وتم تطوير نظام توليد البيانات المركب من أدوات مثل "Claude Code" و"Opus-4" لضمان دقة البيانات. من بين التحسينات المستقبلية المخطط لها: تطوير نموذج تدريب أكثر تطورًا عبر "curriculum learning"، وتوسيع قاعدة البيانات، وتحسين تصفية البيانات. يُعد هذا المشروع مثالًا على كيفية تطوير نماذج قوية باستخدام التعلم بالتعزيز، حتى مع القيود المادية والتقنية. يُعتبر "Qwen3" من النماذج القوية التي تُستخدم في مجال الذكاء الاصطناعي، وتم تطوير هذا المشروع بهدف تحسين قدراته في المهام المعقدة.

Related Links