HyperAIHyperAI

Command Palette

Search for a command to run...

LiveCodeBench Pro: كيف يقيم أولمبياد الميداليات النموذجية نماذج اللغات الطبيعية في البرمجة التنافسية؟

الملخص

تؤكد التقارير الحديثة أن نماذج اللغات الكبيرة (LLMs) تتفوق الآن على النخبة البشرية في البرمجة التنافسية. استنادًا إلى المعرفة المستقاة من مجموعة من الحائزين على ميداليات في المسابقات الدولية للخوارزميات، نعيد النظر في هذه المزاعم، ونفحص كيف تختلف نماذج اللغات الكبيرة عن الخبراء البشريين وما هي المجالات التي لا تزال فيها القيود قائمة. نقدم LiveCodeBench Pro، وهو معيار يتكون من مشكلات مستخرجة من Codeforces وICPC وIOI يتم تحديثها باستمرار لتقليل احتمالية التلوث بالبيانات. يقوم فريق من حائزي الميداليات الأولمبية بتصنيف كل مشكلة حسب الفئات الخوارزمية وإجراء تحليل سطري للمشاركات التي لم ينجح فيها النموذج. باستخدام هذه البيانات الجديدة والمعيار، نجد أن النماذج الرائدة لا تزال تعاني من قيود كبيرة: بدون أدوات خارجية، يحقق أفضل النماذج نسبة نجاح 53% فقط في المشكلات ذات الصعوبة المتوسطة و0% في المشكلات الصعبة، وهي مجالات ما زال فيها الخبراء البشريون يتفوقون. كما نجد أن نماذج اللغات الكبيرة تنجح في المشكلات التي تتطلب تنفيذًا دقيقًا ولكنها تواجه صعوبات في الاستدلال الخوارزمي الدقيق والتحليل المعقد للحالات، حيث غالبًا ما تولد تبريرات خاطئة بثقة عالية. يبدو أن الأداء العالي يُعزى بشكل كبير إلى الدقة في التنفيذ وتدعيم الأدوات وليس إلى الاستدلال الأفضل. وبالتالي، يسلط LiveCodeBench Pro الضوء على الفجوة الكبيرة بين مستوى النماذج ومستوى الأساطير البشرية، مع تقديم تشخيص دقيق لقيادة التحسينات المستقبلية في استدلال نماذج اللغات الكبيرة المتعلقة بالرموز البرمجية.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp