HyperAI
Back to Headlines

DeepSWE: نموذج مفتوح المصدر للذكاء الاصطناعي يتعلم الكود من خلال تعزيز الاستدلال ويحقق دقة 59% في اختبار SWEBench

منذ 2 أيام

شركة Together AI أطلقت "DeepSWE"، وهي وكيل هندسة برمجيات متطور ومفتوح المصدر بالكامل، تم تدريبه بالكامل من خلال تعلم التعزيز (RL). يتم بناء هذا الوكيل على نموذج اللغة Qwen3-32B، وقد حقق نسبة دقة تبلغ 59% على مقياس SWEBench-Verified، و42.2% في تقييمات Pass@1، مما يجعله يتصدر قائمة النماذج ذات الأوزان المفتوحة. تقنية التعلم بالتعزيز تلتقى بإنشاء الرموز البرمجية "DeepSWE" هو نتيجة تدريب ما بعد النموذج الأساسي Qwen3-32B باستخدام نظام rLLM، وهو إطار عمل تعليمي بالتعزيز مرن ومخصص للوكلاء اللغويين من قبل Agentica. على عكس طرق التحسين الإشرافية التقليدية، يمكن لـ rLLM تمكين الوكلاء من التكيف مع سير العمل الفعلي من خلال الخبرة العملية. تم تدريب "DeepSWE" بشكل خاص على حل مهام هندسة البرمجيات المعقدة باستخدام حلقة تعتمد على التغذية الراجعة بدلاً من قواعد بيانات ثابتة. يتضمن خط الأنابيب للتدريب مجموعة بيانات R2EGym الخاصة بـ Agentica، وهي معيار هندسة البرمجيات مصمم لتطوير الوكلاء بأسلوب تعليمي بالتعزيز. يركز الإطار على تدريب نماذج اللغة بأهداف قائمة على الإجراءات، مثل إصلاح الأخطاء، إكمال الوظائف، وتحرير الرموز البرمجية، بدلاً من مجرد التنبؤ بتوزيعات الرموز التالية. هذا يعزز من قدرة "DeepSWE" على التعلم من النواتج بشكل مشابه لطريقة تعلم المهندسين البشريين. المقاييس والأداء على مقياس SWEBench-Verified، وهو الأكثر صرامة لاختبار الوكلاء اللغويين في مجال هندسة البرمجيات، حقق "DeepSWE" نسبة 59% مع تدريب زمني موسّع. هذه النتيجة تتفوق بشكل كبير على النماذج السابقة المفتوحة المصدر. بالنسبة لتقييمات Pass@1، التي تقيس احتمالية حل الوكيل للمشكلة بشكل صحيح في المحاولة الأولى، بلغت نسبة "DeepSWE" 42.2%. هذه النتائج تؤكد القوة الكامنة في تدريب تعليمي بالتعزيز لتعزيز السلوك الوكيلي، خاصة في المجالات التي تتطلب التفكير المتكرر والOutputs دقيقة، مثل توليد الرموز البرمجية. يتسم تصميم النموذج، الموروث من Qwen3-32B، بالقدرة على التوسع بشكل فعال مع بقاءه مناسبًا لتطبيقات العالم الحقيقي. الشفافية والقابلية لإعادة الإنتاج في قلب المشروع واحدة من أهم ميزات هذا الإصدار هي الشفافية الكاملة. قامت كل من Together AI و Agentica بإطلاق مصدر "DeepSWE" بشكل كامل، بالإضافة إلى الوصف الكامل لعملية التدريب، بما في ذلك إطار عمل rLLM، مجموعة بيانات R2EGym، وscrips التكوين للتدريب. هذا يعزز من قابلية إعادة الإنتاج ويدعو المجتمع البحثي والتطويري الأوسع إلى توسيع أو بناء وكلاء على أساس "DeepSWE" دون أي قيود. يمكن للمطورين الوصول إلى "DeepSWE" و rLLM من خلال الروابط المذكورة أدناه: DeepSWE على GitHub rLLM على GitHub تحول من نماذج الاستدلال اللغوي إلى الوكلاء التفاعليين يُعد "DeepSWE" نقطة تحول فلسفية وعملية: من بناء نماذج تحلل اللغة إلى بناء وكلاء يتعلمون من خلال التفاعل. قد أظهرت النماذج اللغوية التقليدية قدرات استدلال قوية، لكنها غالباً ما تفتقر إلى القدرة على التكيف مع التغذية الراجعة أو التحسن مع الاستخدام. يُمكن تقنية التعلم بالتعزيز هذه النماذج ليس فقط من الأداء الجيد عند الإطلاق، ولكن أيضاً من التحسن المستمر، التكيف مع توزيعات المشكلات الجديدة والمجالات المختلفة. هذا النهج يفتح الباب أمام النشر المحلي. نظرًا لأن "DeepSWE" هو مفتوح المصدر وخاضع للتعديل، يمكن توسيعه وإعادة تدريبه للأغراض الخاصة بالمنظمات. يمكن للمطورين والباحثين بناء وكلاء خاصتهم على أساس "DeepSWE" باستخدام rLLM لخدمة مجالات متنوعة مثل التنقل عبر الإنترنت، الروبوتات، أو المساعدة الذاتية في الأبحاث. الخلاصة "DeepSWE" هو علامة فارقة في تطور الذكاء الاصطناعي التوليدي لهندسة البرمجيات. من خلال تطبيق تقنية التعلم بالتعزيز على نماذج اللغة الكبيرة مثل Qwen3-32B وإطلاق البنية التحتية الكاملة للتدريب، تُمكّن Together AI مستقبلًا حيث لا يقتصر الوكلاء على التدريب الأولي والنشر، بل يتم تدريبهم وتحسينهم بشكل مستمر. يحمل هذا التحول من فهم اللغة إلى السلوك الإجرائي آثارًا كبيرة في مجالات البرمجة، الأتمتة، وتصميم الأنظمة الذكية. كل الشكر والتقدير يُقدم للباحثين الذين شاركوا في هذا المشروع. يمكنك متابعتنا على تويتر والانضمام إلى مجتمعنا على Reddit والاشتراك في نشرتنا الإخبارية.

Related Links