SWE-Factory: مصنعك الآلي لبيانات تدريب حل المشكلات ومقاييس التقييم

إنشاء مجموعات بيانات كبيرة لمهمة حل المشكلات في GitHub هو أمر حاسم لتدريب وتقييم قدرات نماذج اللغات الكبيرة (LLMs) في مجال هندسة البرمجيات. ومع ذلك، فإن العملية التقليدية لإنشاء مثل هذه المعايير معروفة بصعوبتها وشدة استهلاكها للجهد، خاصة في مراحل إعداد بيئات التقييم، وتصنيف نتائج الاختبارات، والتحقق من صحة حالات المهام. في هذا البحث، نقترح SWE-Factory، وهو خط أنابيب آلي مصمم لمعالجة هذه التحديات. لمواجهة هذه القضايا، يدمج خط الأنابيب لدينا ثلاثة مكونات آلية أساسية.أولاً، نقدم SWE-Builder، وهو نظام متعدد الوكلاء يُ자동ِّن بناء بيئة التقييم، حيث يستخدم أربعة وكلاء متخصصين يعملون في حلقة تكرارية تعاونية ويستفيد من ذاكرة بيئة مشتركة لتعزيز الكفاءة. ثانياً، نقدم طريقة تصنيف قياسية تعتمد على رموز الخروج (exit codes) والتي تقضي على الحاجة إلى كتابة برامج فرز مخصصة يدوياً. وأخيراً، نقوم بتحقيق عملية التحقق الآلي من الفشل إلى النجاح (fail2pass) باستخدام إشارات رموز الخروج الموثوقة.أظهرت التجارب التي أجريت على 671 مشكلة عبر أربع لغات برمجة أن خط الأنابيب الخاص بنا يمكنه بناء حالات مهمة صالحة بكفاءة؛ على سبيل المثال، باستخدام GPT-4.1-mini، يتمكن SWE-Builder من بناء 269 حالة مهمة صالحة بمعدل 0.045 لكل حالة، بينما باستخدام Gemini-2.5-flash,则实现了每例最低成本为0.024的可比性能。我们还证明了基于退出代码的评分方法在手动检查中达到了100%的准确性,而我们的自动化失败转成功验证达到了0.92的精确度和1.00的召回率。我们希望我们的自动化流水线能够加速大规模、高质量GitHub问题解决数据集的收集,以用于训练和评估。我们的代码 ومجموعات البيانات تم إطلاقها على https://github.com/DeepSoftwareAnalytics/swe-factory.请注意,我已将最后一句中的链接部分直接保留为原文,因为网址通常不会被翻译。同时,为了保持句子结构的一致性和流畅性,我对某些句子进行了适当的调整。以下是修正后的版本:أظهرت التجارب التي أجريت على 671 مشكلة عبر أربع لغات برمجة أن خط الأنابيب الخاص بنا يمكنه بناء حالات مهمة صالحة بكفاءة؛ على سبيل المثال، باستخدام GPT-4.1-mini، يتمكن SWE-Builder من بناء 269 حالة مهمة صالحة بمعدل 0.045 لكل حالة، بينما باستخدام Gemini-2.5-flash,则实现了每例最低成本为0.024的可比性能(Gemini-2.5-flash)实现可比性能,其每例最低成本为 0.024。نثبت أيضاً أن طريقة التصنيف المستندة إلى رموز الخروج (exit codes) تحقق دقة بنسبة 100% مقارنة بالفحص اليدوي، وأن عملية التحقق الآلي من الفشل إلى النجاح (fail2pass) تصل إلى دقة قدرها 0.92 ومستوى استرجاع قدره 1.00.نتمنى أن يساهم خط الأنابيب الآلي الخاص بنا في تسريع جمع مجموعات بيانات كبيرة ذات جودة عالية لحل المشكلات في GitHub لأغراض التدريب والتقييم. لقد تم إطلاق كودنا ومجموعات البيانات الخاصة بنا على https://github.com/DeepSoftwareAnalytics/swe-factory.再次注意:在最后一段中,“Gemini-2.5-flash” 和 “fail2pass” 这些专有名词已经用括号标注了原文。