HyperAIHyperAI
منذ شهر واحد

SWE-Perf: هل يمكن للنماذج اللغوية تحسين أداء الكود في المستودعات الحقيقية؟

Xinyi He, Qian Liu, Mingzhe Du, Lin Yan, Zhijie Fan, Yiming Huang, Zejian Yuan, Zejun Ma
SWE-Perf: هل يمكن للنماذج اللغوية تحسين أداء الكود في المستودعات الحقيقية؟
الملخص

تحسين أداء الكود أمر حاسم في هندسة البرمجيات العملية ومهم للغاية للأنظمة على مستوى الإنتاج. رغم أن نماذج اللغات الكبيرة (LLMs) قد أظهرت قدرات مثيرة للإعجاب في توليد الكود وإصلاح الأخطاء، فإن كفاءتها في تعزيز أداء الكود على مستوى المستودع لا تزال محدودة بشكل كبير. لسد هذه الفجوة، نقدم SWE-Perf، وهو أول مقاييس تم تصميمه خصيصًا لتقييم نماذج اللغات الكبيرة في مهام تحسين أداء الكود ضمن سياقات مستودعات حقيقية. يتكون SWE-Perf من 140 حالة مختارة بعناية، كل منها مستخرجة من طلبات السحب التي تهدف إلى تحسين الأداء من مستودعات شهيرة على GitHub. يشمل كل حالة مقاييس المجموعة المرتبطة بالكود، الدوال المستهدفة، الاختبارات المتعلقة بالأداء، الرقع التي ألفها الخبراء، والبيئات القابلة للتنفيذ. من خلال تقييم شامل للطرق الممثلة التي تغطي النهج على مستوى الملف ومستوى المستودع (مثل Agentless و OpenHands)، نكشف عن فجوة كبيرة في القدرات بين النماذج الحالية لنماذج اللغات الكبيرة وأداء التحسين الذي يقدمه الخبراء، مما يسلط الضوء على فرص البحث الحرجة في هذا المجال الناشئ.

SWE-Perf: هل يمكن للنماذج اللغوية تحسين أداء الكود في المستودعات الحقيقية؟ | أحدث الأوراق البحثية | HyperAI