HyperAIHyperAI

Command Palette

Search for a command to run...

هل يمكن للنماذج اللغوية الكبيرة توليد حالات اختبار عالية الجودة للمشاكل الخوارزمية؟ TestCase-Eval: تقييم منهجي لتغطية الأخطاء وكشفها

Zheyuan Yang Zexi Kuang Xue Xia Yilun Zhao

الملخص

نقدم معيار تقييم جديد يُسمى TestCase-Eval، مخصص لتقييم منهجي للنماذج اللغوية الكبيرة (LLMs) في إنشاء حالات الاختبار. يتضمن TestCase-Eval 500 مشكلة خوارزمية و100,000 حل تم تصميمها بواسطة البشر من منصة Codeforces. يركز هذا المعيار على مهمتين رئيسيتين: (1) تغطية الأخطاء، وهي تقيس مدى قدرة مجموعات الاختبار التي تم إنشاؤها بواسطة النماذج اللغوية الكبيرة على استكشاف سيناريوهات الإدخال المتنوعة وتغطية مجموعة واسعة من أوضاع الفشل المحتملة. (2) كشف الأخطاء، وهو يقيم ما إذا كانت النماذج اللغوية الكبيرة قادرة على تصميم إدخال اختبار مخصص يكشف عن تنفيذ رمز غير صحيح معين. نوفر تقييمًا شاملًا لـ19 نموذجًا لغويًا كبيرًا متقدمًا ومفتوح المصدر على معيار TestCase-Eval، مما يقدم رؤى حول نقاط القوة والضعف لديهم في إنشاء حالات اختبار فعالة للمشاكل الخوارزمية.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp