الملخص

الهندسة البرمجية الآلية قد تعززت بشكل كبير بفضل التقدم الحديث في نماذج اللغات الكبيرة (LLMs) للبرمجة. بينما أظهرت المقاييس الحالية أن النماذج اللغوية الكبيرة قادرة على تنفيذ مهام مختلفة في مجال الهندسة البرمجية مثل المطورين البشريين، فإن معظم تقييماتها تقتصر على مهام خوارزمية قصيرة ومغلقة بحد ذاتها. حل المهام البرمجية الصعبة والعملية يتطلب القدرة على استخدام دعوات وظائف متنوعة كأدوات لتنفيذ الوظائف بكفاءة مثل تحليل البيانات وتطوير الويب. بالإضافة إلى ذلك، استخدام أدوات متعددة لحل مهمة واحدة يتطلب الاستدلال التركيبي من خلال فهم دقيق للتعليمات المعقدة. تحقيق هذين الصفتين يمكن أن يشكل تحديًا كبيرًا للنماذج اللغوية الكبيرة.لتقييم مدى قدرة النماذج اللغوية الكبيرة على حل المهام البرمجية الصعبة والعملية، نقدم مقاييس Bench، وهي مقاييس تحدي تدعو النماذج اللغوية الكبيرة إلى استدعاء دعوات وظائف متعددة كأدوات من 139 مكتبة و7 مجالات لـ 1,140 مهمة برمجية دقيقة. لتقييم النماذج اللغوية الكبيرة بدقة، تحتوي كل مهمة برمجية على 5.6 حالة اختبار بمتوسط تغطية فروع يبلغ 99%. بالإضافة إلى ذلك، نقترح نسخة Benchi المنحازة نحو اللغة الطبيعية، والتي تقوم تلقائيًا بتحويل السلاسل الوثائقية الأصلية إلى تعليمات قصيرة تحتوي فقط على المعلومات الأساسية.تقييمنا الشامل لنحو 60 نموذجًا لغويًا كبيرًا أظهر أن هذه النماذج لم تصبح بعد قادرة على اتباع التعليمات المعقدة واستخدام دعوات الوظائف بدقة، حيث بلغت درجاتها حتى 60%، وهي نسبة أقل بكثير من أداء البشر الذي يصل إلى 97%. هذه النتائج تؤكد الحاجة إلى المزيد من التقدم في هذا المجال.

ملف PDF المصدر عرض الكود

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

BigCodeBench: تقييم إنشاء الرموز مع دوال متعددة ومتنوعة وتعليمات معقدة

Terry Yue Zhuo Minh Chien Vu Jenny Chim Han Hu Wenhao Yu Ratnadira Widyasari Imam Nur Bani Yusuf Haolan Zhan Junda He Indraneil Paul23 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

BigCodeBench: تقييم إنشاء الرموز مع دوال متعددة ومتنوعة وتعليمات معقدة

Terry Yue Zhuo Minh Chien Vu Jenny Chim Han Hu Wenhao Yu Ratnadira Widyasari Imam Nur Bani Yusuf Haolan Zhan Junda He Indraneil Paul23 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

BigCodeBench: تقييم إنشاء الرموز مع دوال متعددة ومتنوعة وتعليمات معقدة

Terry Yue Zhuo Minh Chien Vu Jenny Chim Han Hu Wenhao Yu Ratnadira Widyasari Imam Nur Bani Yusuf Haolan Zhan Junda He Indraneil Paul23 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Terry Yue Zhuo Minh Chien Vu Jenny Chim Han Hu Wenhao Yu Ratnadira Widyasari Imam Nur Bani Yusuf Haolan Zhan Junda He Indraneil Paul

Terry Yue Zhuo Minh Chien Vu Jenny Chim Han Hu Wenhao Yu Ratnadira Widyasari Imam Nur Bani Yusuf Haolan Zhan Junda He Indraneil Paul

Terry Yue Zhuo Minh Chien Vu Jenny Chim Han Hu Wenhao Yu Ratnadira Widyasari Imam Nur Bani Yusuf Haolan Zhan Junda He Indraneil Paul