LiveCodeBench Pro: كيف يقيم أولمبياد الميداليات النموذجية نماذج اللغات الطبيعية في البرمجة التنافسية؟

تؤكد التقارير الحديثة أن نماذج اللغات الكبيرة (LLMs) تتفوق الآن على النخبة البشرية في البرمجة التنافسية. استنادًا إلى المعرفة المستقاة من مجموعة من الحائزين على ميداليات في المسابقات الدولية للخوارزميات، نعيد النظر في هذه المزاعم، ونفحص كيف تختلف نماذج اللغات الكبيرة عن الخبراء البشريين وما هي المجالات التي لا تزال فيها القيود قائمة. نقدم LiveCodeBench Pro، وهو معيار يتكون من مشكلات مستخرجة من Codeforces وICPC وIOI يتم تحديثها باستمرار لتقليل احتمالية التلوث بالبيانات. يقوم فريق من حائزي الميداليات الأولمبية بتصنيف كل مشكلة حسب الفئات الخوارزمية وإجراء تحليل سطري للمشاركات التي لم ينجح فيها النموذج. باستخدام هذه البيانات الجديدة والمعيار، نجد أن النماذج الرائدة لا تزال تعاني من قيود كبيرة: بدون أدوات خارجية، يحقق أفضل النماذج نسبة نجاح 53% فقط في المشكلات ذات الصعوبة المتوسطة و0% في المشكلات الصعبة، وهي مجالات ما زال فيها الخبراء البشريون يتفوقون. كما نجد أن نماذج اللغات الكبيرة تنجح في المشكلات التي تتطلب تنفيذًا دقيقًا ولكنها تواجه صعوبات في الاستدلال الخوارزمي الدقيق والتحليل المعقد للحالات، حيث غالبًا ما تولد تبريرات خاطئة بثقة عالية. يبدو أن الأداء العالي يُعزى بشكل كبير إلى الدقة في التنفيذ وتدعيم الأدوات وليس إلى الاستدلال الأفضل. وبالتالي، يسلط LiveCodeBench Pro الضوء على الفجوة الكبيرة بين مستوى النماذج ومستوى الأساطير البشرية، مع تقديم تشخيص دقيق لقيادة التحسينات المستقبلية في استدلال نماذج اللغات الكبيرة المتعلقة بالرموز البرمجية.