الملخص

تؤكد التقارير الحديثة أن نماذج اللغات الكبيرة (LLMs) تتفوق الآن على النخبة البشرية في البرمجة التنافسية. استنادًا إلى المعرفة المستقاة من مجموعة من الحائزين على ميداليات في المسابقات الدولية للخوارزميات، نعيد النظر في هذه المزاعم، ونفحص كيف تختلف نماذج اللغات الكبيرة عن الخبراء البشريين وما هي المجالات التي لا تزال فيها القيود قائمة. نقدم LiveCodeBench Pro، وهو معيار يتكون من مشكلات مستخرجة من Codeforces وICPC وIOI يتم تحديثها باستمرار لتقليل احتمالية التلوث بالبيانات. يقوم فريق من حائزي الميداليات الأولمبية بتصنيف كل مشكلة حسب الفئات الخوارزمية وإجراء تحليل سطري للمشاركات التي لم ينجح فيها النموذج. باستخدام هذه البيانات الجديدة والمعيار، نجد أن النماذج الرائدة لا تزال تعاني من قيود كبيرة: بدون أدوات خارجية، يحقق أفضل النماذج نسبة نجاح 53% فقط في المشكلات ذات الصعوبة المتوسطة و0% في المشكلات الصعبة، وهي مجالات ما زال فيها الخبراء البشريون يتفوقون. كما نجد أن نماذج اللغات الكبيرة تنجح في المشكلات التي تتطلب تنفيذًا دقيقًا ولكنها تواجه صعوبات في الاستدلال الخوارزمي الدقيق والتحليل المعقد للحالات، حيث غالبًا ما تولد تبريرات خاطئة بثقة عالية. يبدو أن الأداء العالي يُعزى بشكل كبير إلى الدقة في التنفيذ وتدعيم الأدوات وليس إلى الاستدلال الأفضل. وبالتالي، يسلط LiveCodeBench Pro الضوء على الفجوة الكبيرة بين مستوى النماذج ومستوى الأساطير البشرية، مع تقديم تشخيص دقيق لقيادة التحسينات المستقبلية في استدلال نماذج اللغات الكبيرة المتعلقة بالرموز البرمجية.

ملف PDF المصدر عرض الكود

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

LiveCodeBench Pro: كيف يقيم أولمبياد الميداليات النموذجية نماذج اللغات الطبيعية في البرمجة التنافسية؟

Zihan Zheng Zerui Cheng Zeyu Shen Shang Zhou Kaiyuan Liu Hansen He Dongruixuan Li Stanley Wei Hangyi Hao Jianzhu Yao9 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

LiveCodeBench Pro: كيف يقيم أولمبياد الميداليات النموذجية نماذج اللغات الطبيعية في البرمجة التنافسية؟

Zihan Zheng Zerui Cheng Zeyu Shen Shang Zhou Kaiyuan Liu Hansen He Dongruixuan Li Stanley Wei Hangyi Hao Jianzhu Yao9 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

LiveCodeBench Pro: كيف يقيم أولمبياد الميداليات النموذجية نماذج اللغات الطبيعية في البرمجة التنافسية؟

Zihan Zheng Zerui Cheng Zeyu Shen Shang Zhou Kaiyuan Liu Hansen He Dongruixuan Li Stanley Wei Hangyi Hao Jianzhu Yao9 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Zihan Zheng Zerui Cheng Zeyu Shen Shang Zhou Kaiyuan Liu Hansen He Dongruixuan Li Stanley Wei Hangyi Hao Jianzhu Yao

Zihan Zheng Zerui Cheng Zeyu Shen Shang Zhou Kaiyuan Liu Hansen He Dongruixuan Li Stanley Wei Hangyi Hao Jianzhu Yao

Zihan Zheng Zerui Cheng Zeyu Shen Shang Zhou Kaiyuan Liu Hansen He Dongruixuan Li Stanley Wei Hangyi Hao Jianzhu Yao