HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 2 أشهر

AetherCode: تقييم قدرة نماذج لغة كبيرة على الفوز في المسابقات البرمجية الرائدة

Zihan Wang Jiaze Chen Zhicheng Liu Markus Mak Yidi Du Geonsik Moon et al

AetherCode: تقييم قدرة نماذج لغة كبيرة على الفوز في المسابقات البرمجية الرائدة

الملخص

أصبحت البرمجة التنافسية معيارًا حاسمًا لتقييم قدرات النماذج اللغوية الكبيرة (LLMs) على التفكير والبرمجة. وعلى الرغم من التقدم المثير للإعجاب في المعايير الحالية، نحن نرى أن التقييمات الحالية تبالغ في تقدير كفاءة النماذج، مما يُخفي فجوة كبيرة بين هذه النماذج وبين المبرمجين البشر المتميزين. وتنشأ هذه الفجوة بسبب قَصَرِ صعوبة ونطاق مسائل المعايير الحالية، بالإضافة إلى التحيز في التقييم الناتج عن وجود حالات اختبار منخفضة الجودة. وللتغلب على هذه العيوب، نقدّم "أثيركود" (AetherCode)، وهو معيار جديد يستمد مسائله من مسابقات برمجة رفيعة المستوى مثل مسابقة IOI وICPC، مما يوفر تغطية أوسع ومستوى صعوبة أعلى. كما يدمج أثيركود مجموعات اختبار شاملة ومحسَّنة من قبل خبراء، تم إنشاؤها من خلال مزيج من التوليد التلقائي والتحكّم البشري، مما يضمن تقييمًا صارمًا وموثوقًا. وبدمج تصميم مسائل صعبة مع تقييم قوي، يوفر أثيركود قياسًا أكثر دقة لقدرات النماذج اللغوية الكبيرة، ويُرسي معيارًا جديدًا للبحث المستقبلي في مجال التفكير البرمجي.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
AetherCode: تقييم قدرة نماذج لغة كبيرة على الفوز في المسابقات البرمجية الرائدة | الأوراق البحثية | HyperAI