Command Palette
Search for a command to run...
AetherCode: تقييم قدرة نماذج لغة كبيرة على الفوز في المسابقات البرمجية الرائدة
Zihan Wang Jiaze Chen Zhicheng Liu Markus Mak Yidi Du Geonsik Moon et al

الملخص
أصبحت البرمجة التنافسية معيارًا حاسمًا لتقييم قدرات النماذج اللغوية الكبيرة (LLMs) على التفكير والبرمجة. وعلى الرغم من التقدم المثير للإعجاب في المعايير الحالية، نحن نرى أن التقييمات الحالية تبالغ في تقدير كفاءة النماذج، مما يُخفي فجوة كبيرة بين هذه النماذج وبين المبرمجين البشر المتميزين. وتنشأ هذه الفجوة بسبب قَصَرِ صعوبة ونطاق مسائل المعايير الحالية، بالإضافة إلى التحيز في التقييم الناتج عن وجود حالات اختبار منخفضة الجودة. وللتغلب على هذه العيوب، نقدّم "أثيركود" (AetherCode)، وهو معيار جديد يستمد مسائله من مسابقات برمجة رفيعة المستوى مثل مسابقة IOI وICPC، مما يوفر تغطية أوسع ومستوى صعوبة أعلى. كما يدمج أثيركود مجموعات اختبار شاملة ومحسَّنة من قبل خبراء، تم إنشاؤها من خلال مزيج من التوليد التلقائي والتحكّم البشري، مما يضمن تقييمًا صارمًا وموثوقًا. وبدمج تصميم مسائل صعبة مع تقييم قوي، يوفر أثيركود قياسًا أكثر دقة لقدرات النماذج اللغوية الكبيرة، ويُرسي معيارًا جديدًا للبحث المستقبلي في مجال التفكير البرمجي.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.