HyperAIHyperAI

Command Palette

Search for a command to run...

تحديات استخراج المشكلة وترميزها

Patrick Haller Jonas Golde Alan Akbik

الملخص

أظهرت التطورات الحديثة في النماذج اللغوية الكبيرة (LLMs) قدراتها الاستثنائية في مجموعة متنوعة من المهام، مثل إنشاء الشفرات البرمجية، وحل المشكلات، والاستدلال. تقيّم المعايير الحالية المهام بشكل منفصل، لكن مدى قدرة النماذج اللغوية الكبيرة على فهم المهام المكتوبة على شكل نصوص أدبية، وتحديد المشكلات الكامنة وراءها، ثم إنتاج حلول برمجية مناسبة لا يزال غير مستكشف. لسد هذه الفجوة، نقدّم PECC، وهي معيار جديد مستمد من تحديات Advent Of Code (AoC) وProject Euler، يحتوي على 2396 مشكلة. على عكس المعايير التقليدية، يتطلب PECC من النماذج اللغوية الكبيرة تفسير المشكلات المضمنة في السرد، واستخراج المتطلبات، وإنتاج شفرات قابلة للتنفيذ. يتميّز هذا المجموعة بتعقيد إضافي ناتج عن استخدام التوجيهات الطبيعية في التقييمات القائمة على الدردشة، مما يحاكي التباينات والغموض في التعليمات الواقعية. أظهرت النتائج تفاوتًا في أداء النماذج بين المشكلات السردية والمحايدة، مع صعوبات ملحوظة في مجموعة Project Euler الرياضية، حيث نجح نموذج GPT-3.5-Turbo في حل 50% من تحديات AoC فقط، بينما نجح في حل 8% فقط من المشكلات الرياضية في Project Euler. من خلال استكشاف حدود قدرات النماذج اللغوية الكبيرة، يوفر معيارنا إطارًا لتتبع وتقييم التقدم المستقبلي لهذه النماذج كحلّالات مشكلات عالمية.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
تحديات استخراج المشكلة وترميزها | مستندات | HyperAI