HyperAIHyperAI

Command Palette

Search for a command to run...

SWE-Perf: هل يمكن للنماذج اللغوية تحسين أداء الكود في المستودعات الحقيقية؟

Xinyi He Qian Liu Mingzhe Du Lin Yan Zhijie Fan Yiming Huang Zejian Yuan Zejun Ma

الملخص

تحسين أداء الكود أمر حاسم في هندسة البرمجيات العملية ومهم للغاية للأنظمة على مستوى الإنتاج. رغم أن نماذج اللغات الكبيرة (LLMs) قد أظهرت قدرات مثيرة للإعجاب في توليد الكود وإصلاح الأخطاء، فإن كفاءتها في تعزيز أداء الكود على مستوى المستودع لا تزال محدودة بشكل كبير. لسد هذه الفجوة، نقدم SWE-Perf، وهو أول مقاييس تم تصميمه خصيصًا لتقييم نماذج اللغات الكبيرة في مهام تحسين أداء الكود ضمن سياقات مستودعات حقيقية. يتكون SWE-Perf من 140 حالة مختارة بعناية، كل منها مستخرجة من طلبات السحب التي تهدف إلى تحسين الأداء من مستودعات شهيرة على GitHub. يشمل كل حالة مقاييس المجموعة المرتبطة بالكود، الدوال المستهدفة، الاختبارات المتعلقة بالأداء، الرقع التي ألفها الخبراء، والبيئات القابلة للتنفيذ. من خلال تقييم شامل للطرق الممثلة التي تغطي النهج على مستوى الملف ومستوى المستودع (مثل Agentless و OpenHands)، نكشف عن فجوة كبيرة في القدرات بين النماذج الحالية لنماذج اللغات الكبيرة وأداء التحسين الذي يقدمه الخبراء، مما يسلط الضوء على فرص البحث الحرجة في هذا المجال الناشئ.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
SWE-Perf: هل يمكن للنماذج اللغوية تحسين أداء الكود في المستودعات الحقيقية؟ | مستندات | HyperAI