SWE-Perf: هل يمكن للنماذج اللغوية تحسين أداء الكود في المستودعات الحقيقية؟

تحسين أداء الكود أمر حاسم في هندسة البرمجيات العملية ومهم للغاية للأنظمة على مستوى الإنتاج. رغم أن نماذج اللغات الكبيرة (LLMs) قد أظهرت قدرات مثيرة للإعجاب في توليد الكود وإصلاح الأخطاء، فإن كفاءتها في تعزيز أداء الكود على مستوى المستودع لا تزال محدودة بشكل كبير. لسد هذه الفجوة، نقدم SWE-Perf، وهو أول مقاييس تم تصميمه خصيصًا لتقييم نماذج اللغات الكبيرة في مهام تحسين أداء الكود ضمن سياقات مستودعات حقيقية. يتكون SWE-Perf من 140 حالة مختارة بعناية، كل منها مستخرجة من طلبات السحب التي تهدف إلى تحسين الأداء من مستودعات شهيرة على GitHub. يشمل كل حالة مقاييس المجموعة المرتبطة بالكود، الدوال المستهدفة، الاختبارات المتعلقة بالأداء، الرقع التي ألفها الخبراء، والبيئات القابلة للتنفيذ. من خلال تقييم شامل للطرق الممثلة التي تغطي النهج على مستوى الملف ومستوى المستودع (مثل Agentless و OpenHands)، نكشف عن فجوة كبيرة في القدرات بين النماذج الحالية لنماذج اللغات الكبيرة وأداء التحسين الذي يقدمه الخبراء، مما يسلط الضوء على فرص البحث الحرجة في هذا المجال الناشئ.