HyperAIHyperAI

Command Palette

Search for a command to run...

AetherCode: تقييم قدرة نماذج لغة كبيرة على الفوز في المسابقات البرمجية الرائدة

Zihan Wang Jiaze Chen Zhicheng Liu Markus Mak Yidi Du Geonsik Moon et al

الملخص

أصبحت البرمجة التنافسية معيارًا حاسمًا لتقييم قدرات النماذج اللغوية الكبيرة (LLMs) على التفكير والبرمجة. وعلى الرغم من التقدم المثير للإعجاب في المعايير الحالية، نحن نرى أن التقييمات الحالية تبالغ في تقدير كفاءة النماذج، مما يُخفي فجوة كبيرة بين هذه النماذج وبين المبرمجين البشر المتميزين. وتنشأ هذه الفجوة بسبب قَصَرِ صعوبة ونطاق مسائل المعايير الحالية، بالإضافة إلى التحيز في التقييم الناتج عن وجود حالات اختبار منخفضة الجودة. وللتغلب على هذه العيوب، نقدّم "أثيركود" (AetherCode)، وهو معيار جديد يستمد مسائله من مسابقات برمجة رفيعة المستوى مثل مسابقة IOI وICPC، مما يوفر تغطية أوسع ومستوى صعوبة أعلى. كما يدمج أثيركود مجموعات اختبار شاملة ومحسَّنة من قبل خبراء، تم إنشاؤها من خلال مزيج من التوليد التلقائي والتحكّم البشري، مما يضمن تقييمًا صارمًا وموثوقًا. وبدمج تصميم مسائل صعبة مع تقييم قوي، يوفر أثيركود قياسًا أكثر دقة لقدرات النماذج اللغوية الكبيرة، ويُرسي معيارًا جديدًا للبحث المستقبلي في مجال التفكير البرمجي.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp