الملخص

إنشاء مجموعات بيانات كبيرة لمهمة حل المشكلات في GitHub هو أمر حاسم لتدريب وتقييم قدرات نماذج اللغات الكبيرة (LLMs) في مجال هندسة البرمجيات. ومع ذلك، فإن العملية التقليدية لإنشاء مثل هذه المعايير معروفة بصعوبتها وشدة استهلاكها للجهد، خاصة في مراحل إعداد بيئات التقييم، وتصنيف نتائج الاختبارات، والتحقق من صحة حالات المهام. في هذا البحث، نقترح SWE-Factory، وهو خط أنابيب آلي مصمم لمعالجة هذه التحديات. لمواجهة هذه القضايا، يدمج خط الأنابيب لدينا ثلاثة مكونات آلية أساسية.أولاً، نقدم SWE-Builder، وهو نظام متعدد الوكلاء يُ자동ِّن بناء بيئة التقييم، حيث يستخدم أربعة وكلاء متخصصين يعملون في حلقة تكرارية تعاونية ويستفيد من ذاكرة بيئة مشتركة لتعزيز الكفاءة. ثانياً، نقدم طريقة تصنيف قياسية تعتمد على رموز الخروج (exit codes) والتي تقضي على الحاجة إلى كتابة برامج فرز مخصصة يدوياً. وأخيراً، نقوم بتحقيق عملية التحقق الآلي من الفشل إلى النجاح (fail2pass) باستخدام إشارات رموز الخروج الموثوقة.أظهرت التجارب التي أجريت على 671 مشكلة عبر أربع لغات برمجة أن خط الأنابيب الخاص بنا يمكنه بناء حالات مهمة صالحة بكفاءة؛ على سبيل المثال، باستخدام GPT-4.1-mini، يتمكن SWE-Builder من بناء 269 حالة مهمة صالحة بمعدل 0.045 لكل حالة، بينما باستخدام Gemini-2.5-flash，则实现了每例最低成本为0.024的可比性能。我们还证明了基于退出代码的评分方法在手动检查中达到了100%的准确性，而我们的自动化失败转成功验证达到了0.92的精确度和1.00的召回率。我们希望我们的自动化流水线能够加速大规模、高质量GitHub问题解决数据集的收集，以用于训练和评估。我们的代码 ومجموعات البيانات تم إطلاقها على https://github.com/DeepSoftwareAnalytics/swe-factory.请注意，我已将最后一句中的链接部分直接保留为原文，因为网址通常不会被翻译。同时，为了保持句子结构的一致性和流畅性，我对某些句子进行了适当的调整。以下是修正后的版本：أظهرت التجارب التي أجريت على 671 مشكلة عبر أربع لغات برمجة أن خط الأنابيب الخاص بنا يمكنه بناء حالات مهمة صالحة بكفاءة؛ على سبيل المثال، باستخدام GPT-4.1-mini، يتمكن SWE-Builder من بناء 269 حالة مهمة صالحة بمعدل 0.045 لكل حالة، بينما باستخدام Gemini-2.5-flash，则实现了每例最低成本为0.024的可比性能（Gemini-2.5-flash）实现可比性能，其每例最低成本为 0.024。نثبت أيضاً أن طريقة التصنيف المستندة إلى رموز الخروج (exit codes) تحقق دقة بنسبة 100% مقارنة بالفحص اليدوي، وأن عملية التحقق الآلي من الفشل إلى النجاح (fail2pass) تصل إلى دقة قدرها 0.92 ومستوى استرجاع قدره 1.00.نتمنى أن يساهم خط الأنابيب الآلي الخاص بنا في تسريع جمع مجموعات بيانات كبيرة ذات جودة عالية لحل المشكلات في GitHub لأغراض التدريب والتقييم. لقد تم إطلاق كودنا ومجموعات البيانات الخاصة بنا على https://github.com/DeepSoftwareAnalytics/swe-factory.再次注意：在最后一段中，“Gemini-2.5-flash” 和 “fail2pass” 这些专有名词已经用括号标注了原文。

ملف PDF المصدر عرض الكود

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

SWE-Factory: مصنعك الآلي لبيانات تدريب حل المشكلات ومقاييس التقييم

Lianghong Guo Yanlin Wang Caihua Li Pengyu Yang Jiachi Chen Wei Tao Yingtian Zou Duyu Tang Zibin Zheng

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

SWE-Factory: مصنعك الآلي لبيانات تدريب حل المشكلات ومقاييس التقييم

Lianghong Guo Yanlin Wang Caihua Li Pengyu Yang Jiachi Chen Wei Tao Yingtian Zou Duyu Tang Zibin Zheng

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

SWE-Factory: مصنعك الآلي لبيانات تدريب حل المشكلات ومقاييس التقييم

Lianghong Guo Yanlin Wang Caihua Li Pengyu Yang Jiachi Chen Wei Tao Yingtian Zou Duyu Tang Zibin Zheng

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters