منذ 6 أشهر

الملخص

أظهرت التطورات الحديثة في النماذج اللغوية الكبيرة (LLMs) قدراتها الاستثنائية في مجموعة متنوعة من المهام، مثل إنشاء الشفرات البرمجية، وحل المشكلات، والاستدلال. تقيّم المعايير الحالية المهام بشكل منفصل، لكن مدى قدرة النماذج اللغوية الكبيرة على فهم المهام المكتوبة على شكل نصوص أدبية، وتحديد المشكلات الكامنة وراءها، ثم إنتاج حلول برمجية مناسبة لا يزال غير مستكشف. لسد هذه الفجوة، نقدّم PECC، وهي معيار جديد مستمد من تحديات Advent Of Code (AoC) وProject Euler، يحتوي على 2396 مشكلة. على عكس المعايير التقليدية، يتطلب PECC من النماذج اللغوية الكبيرة تفسير المشكلات المضمنة في السرد، واستخراج المتطلبات، وإنتاج شفرات قابلة للتنفيذ. يتميّز هذا المجموعة بتعقيد إضافي ناتج عن استخدام التوجيهات الطبيعية في التقييمات القائمة على الدردشة، مما يحاكي التباينات والغموض في التعليمات الواقعية. أظهرت النتائج تفاوتًا في أداء النماذج بين المشكلات السردية والمحايدة، مع صعوبات ملحوظة في مجموعة Project Euler الرياضية، حيث نجح نموذج GPT-3.5-Turbo في حل 50% من تحديات AoC فقط، بينما نجح في حل 8% فقط من المشكلات الرياضية في Project Euler. من خلال استكشاف حدود قدرات النماذج اللغوية الكبيرة، يوفر معيارنا إطارًا لتتبع وتقييم التقدم المستقبلي لهذه النماذج كحلّالات مشكلات عالمية.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار