منذ 14 أيام

Skywork-SWE: كشف قوانين توسعة البيانات للهندسة البرمجية في نماذج اللغة الكبيرة (LLMs)

Liang Zeng, Yongcong Li, Yuzhen Xiao, Changshi Li, Chris Yuhao Liu, Rui Yan, Tianwen Wei, Jujie He, Xuchen Song, Yang Liu, Yahui Zhou

عرض تفاصيل الورقة البحثية

Skywork-SWE: كشف قوانين توسعة البيانات للهندسة البرمجية في نماذج اللغة الكبيرة (LLMs)

الملخص

الهندسة البرمجية (SWE) ظهرت مؤخرًا كمنصة اختبار حاسمة للوكلاء اللغويين الجيل التالي (LLM)، حيث تتطلب قدرات متأصلة في بعدين حيويين: حل المشكلات التكراري المستدام (مثل، أكثر من 50 جولة تفاعلية) وحل الاعتمادية السياقية الطويلة (مثل، أكثر من 32 ألف رمز). ومع ذلك، يظل عملية تجميع البيانات في الهندسة البرمجية معروفة بأنها تستغرق وقتًا طويلاً، نظرًا لاعتمادها الشديد على التسمية اليدوية لتصفية ملفات الكود وإعداد بيئات تشغيل مخصصة لتنفيذ وتحقق من الاختبارات الوحدانية. نتيجة لذلك، تكون معظم المجموعات البيانات الموجودة محدودة إلى بضعة آلاف من الحالات المستمدة من GitHub فقط. لذا، نقترح أنبوب بيانات تجميعي متدرج ومتمكّن آليًا يوسع بشكل نظامي كلًا من حجم ومتنوعية مجموعات بيانات الهندسة البرمجية. يتكون مجموعة البيانات الخاصة بنا من 10,169 حالة مهمة حقيقية بلغة Python مستمدة من 2,531 مستودع GitHub مختلف، وكل منها يرافقه مهمة محددة باللغة الطبيعية وصورة بيئة تشغيل مخصصة لتحقق الآلي من الاختبارات الوحدانية. لقد أعدنا بعناية أكثر من 8,000 مسار تدريبي تم التحقق منه بنجاح في البيئة التشغيلية ضمن مجموعة البيانات المقترحة لدينا.عند ضبط نموذج Skywork-SWE على هذه المسارات، نكشف عن ظاهرة تصعيد البيانات الملفتة للنظر: أداء النموذج المدرب للقدرات الهندسية البرمجية في LLM يستمر في التحسن مع زيادة حجم البيانات، دون أي علامات على التشبع. وبشكل لافت للنظر، حقق نموذج Skywork-SWE الخاص بنا دقة بنسبة 38.0% في اختبار SWE-bench Verified دون استخدام مدققات أو عمليات تنفيذ متعددة، مما يجعله أفضل ما تم الوصول إليه (SOTA) بين النماذج LLM القائمة على Qwen2.5-Coder-32B والمبنية على إطار عمل OpenHands. بالإضافة إلى ذلك، عند دمج تقنيات تصعيد الوقت الاختباري، يتحسن الأداء ليصل إلى نسبة دقة 47.0%，تجاوز بذلك أفضل النتائج السابقة لـ SOTA لنماذج ذات أقل من 32 مليار معامل.سنقوم بإصدار نقطة تحكم نموذج Skywork-SWE-32B لتسريع البحث المستقبلي.