HyperAIHyperAI
منذ 2 أشهر

BigCodeBench: تقييم إنشاء الرموز مع دوال متعددة ومتنوعة وتعليمات معقدة

Terry Yue Zhuo, Minh Chien Vu, Jenny Chim, Han Hu, Wenhao Yu, Ratnadira Widyasari, Imam Nur Bani Yusuf, Haolan Zhan, Junda He, Indraneil Paul, Simon Brunner, Chen Gong, Thong Hoang, Armel Randy Zebaze, Xiaoheng Hong, Wen-Ding Li, Jean Kaddour, Ming Xu, Zhihan Zhang, Prateek Yadav, Naman Jain, Alex Gu, Zhoujun Cheng, Jiawei Liu, Qian Liu, Zijian Wang, David Lo, Binyuan Hui, Niklas Muennighoff, Daniel Fried, Xiaoning Du, Harm de Vries, Leandro Von Werra
BigCodeBench: تقييم إنشاء الرموز مع دوال متعددة ومتنوعة
وتعليمات معقدة
الملخص

الهندسة البرمجية الآلية قد تعززت بشكل كبير بفضل التقدم الحديث في نماذج اللغات الكبيرة (LLMs) للبرمجة. بينما أظهرت المقاييس الحالية أن النماذج اللغوية الكبيرة قادرة على تنفيذ مهام مختلفة في مجال الهندسة البرمجية مثل المطورين البشريين، فإن معظم تقييماتها تقتصر على مهام خوارزمية قصيرة ومغلقة بحد ذاتها. حل المهام البرمجية الصعبة والعملية يتطلب القدرة على استخدام دعوات وظائف متنوعة كأدوات لتنفيذ الوظائف بكفاءة مثل تحليل البيانات وتطوير الويب. بالإضافة إلى ذلك، استخدام أدوات متعددة لحل مهمة واحدة يتطلب الاستدلال التركيبي من خلال فهم دقيق للتعليمات المعقدة. تحقيق هذين الصفتين يمكن أن يشكل تحديًا كبيرًا للنماذج اللغوية الكبيرة.لتقييم مدى قدرة النماذج اللغوية الكبيرة على حل المهام البرمجية الصعبة والعملية، نقدم مقاييس Bench، وهي مقاييس تحدي تدعو النماذج اللغوية الكبيرة إلى استدعاء دعوات وظائف متعددة كأدوات من 139 مكتبة و7 مجالات لـ 1,140 مهمة برمجية دقيقة. لتقييم النماذج اللغوية الكبيرة بدقة، تحتوي كل مهمة برمجية على 5.6 حالة اختبار بمتوسط تغطية فروع يبلغ 99%. بالإضافة إلى ذلك، نقترح نسخة Benchi المنحازة نحو اللغة الطبيعية، والتي تقوم تلقائيًا بتحويل السلاسل الوثائقية الأصلية إلى تعليمات قصيرة تحتوي فقط على المعلومات الأساسية.تقييمنا الشامل لنحو 60 نموذجًا لغويًا كبيرًا أظهر أن هذه النماذج لم تصبح بعد قادرة على اتباع التعليمات المعقدة واستخدام دعوات الوظائف بدقة، حيث بلغت درجاتها حتى 60%، وهي نسبة أقل بكثير من أداء البشر الذي يصل إلى 97%. هذه النتائج تؤكد الحاجة إلى المزيد من التقدم في هذا المجال.

BigCodeBench: تقييم إنشاء الرموز مع دوال متعددة ومتنوعة وتعليمات معقدة | أحدث الأوراق البحثية | HyperAI