BigCodeBench: تقييم إنشاء الرموز مع دوال متعددة ومتنوعة وتعليمات معقدة

الهندسة البرمجية الآلية قد تعززت بشكل كبير بفضل التقدم الحديث في نماذج اللغات الكبيرة (LLMs) للبرمجة. بينما أظهرت المقاييس الحالية أن النماذج اللغوية الكبيرة قادرة على تنفيذ مهام مختلفة في مجال الهندسة البرمجية مثل المطورين البشريين، فإن معظم تقييماتها تقتصر على مهام خوارزمية قصيرة ومغلقة بحد ذاتها. حل المهام البرمجية الصعبة والعملية يتطلب القدرة على استخدام دعوات وظائف متنوعة كأدوات لتنفيذ الوظائف بكفاءة مثل تحليل البيانات وتطوير الويب. بالإضافة إلى ذلك، استخدام أدوات متعددة لحل مهمة واحدة يتطلب الاستدلال التركيبي من خلال فهم دقيق للتعليمات المعقدة. تحقيق هذين الصفتين يمكن أن يشكل تحديًا كبيرًا للنماذج اللغوية الكبيرة.لتقييم مدى قدرة النماذج اللغوية الكبيرة على حل المهام البرمجية الصعبة والعملية، نقدم مقاييس Bench، وهي مقاييس تحدي تدعو النماذج اللغوية الكبيرة إلى استدعاء دعوات وظائف متعددة كأدوات من 139 مكتبة و7 مجالات لـ 1,140 مهمة برمجية دقيقة. لتقييم النماذج اللغوية الكبيرة بدقة، تحتوي كل مهمة برمجية على 5.6 حالة اختبار بمتوسط تغطية فروع يبلغ 99%. بالإضافة إلى ذلك، نقترح نسخة Benchi المنحازة نحو اللغة الطبيعية، والتي تقوم تلقائيًا بتحويل السلاسل الوثائقية الأصلية إلى تعليمات قصيرة تحتوي فقط على المعلومات الأساسية.تقييمنا الشامل لنحو 60 نموذجًا لغويًا كبيرًا أظهر أن هذه النماذج لم تصبح بعد قادرة على اتباع التعليمات المعقدة واستخدام دعوات الوظائف بدقة، حيث بلغت درجاتها حتى 60%، وهي نسبة أقل بكثير من أداء البشر الذي يصل إلى 97%. هذه النتائج تؤكد الحاجة إلى المزيد من التقدم في هذا المجال.