هل يمكن للنماذج اللغوية الكبيرة توليد حالات اختبار عالية الجودة للمشاكل الخوارزمية؟ TestCase-Eval: تقييم منهجي لتغطية الأخطاء وكشفها
Zheyuan Yang, Zexi Kuang, Xue Xia, Yilun Zhao
تاريخ النشر: 6/18/2025

الملخص
نقدم معيار تقييم جديد يُسمى TestCase-Eval، مخصص لتقييم منهجي للنماذج اللغوية الكبيرة (LLMs) في إنشاء حالات الاختبار. يتضمن TestCase-Eval 500 مشكلة خوارزمية و100,000 حل تم تصميمها بواسطة البشر من منصة Codeforces. يركز هذا المعيار على مهمتين رئيسيتين: (1) تغطية الأخطاء، وهي تقيس مدى قدرة مجموعات الاختبار التي تم إنشاؤها بواسطة النماذج اللغوية الكبيرة على استكشاف سيناريوهات الإدخال المتنوعة وتغطية مجموعة واسعة من أوضاع الفشل المحتملة. (2) كشف الأخطاء، وهو يقيم ما إذا كانت النماذج اللغوية الكبيرة قادرة على تصميم إدخال اختبار مخصص يكشف عن تنفيذ رمز غير صحيح معين. نوفر تقييمًا شاملًا لـ19 نموذجًا لغويًا كبيرًا متقدمًا ومفتوح المصدر على معيار TestCase-Eval، مما يقدم رؤى حول نقاط القوة والضعف لديهم في إنشاء حالات اختبار فعالة للمشاكل الخوارزمية.