الملخص

بينما تعد البرمجة من المهارات الأكثر انتشارًا واستخدامًا في المجتمع الحديث، فإن نماذج التعلم الآلي الحديثة لا تزال غير قادرة على كتابة حلول لمشاكل أساسية. رغم أهميتها، إلا أن هناك قلة ملحوظة في الأبحاث التي تقيم إنتاج الرموز (الكود)، وقد يكون من الصعب تقييم أداء إنتاج الرموز بدقة وبطريقة صارمة. لمواجهة هذا التحدي، نقدم APPS، وهو معيار لتقييم إنتاج الرموز. بخلاف الأعمال السابقة التي كانت تجري في بيئات مقيدة أكثر، يقيس معيارنا القدرة على فهم أي مواصفات بلغة طبيعية وإنتاج رمز بيثون (Python) مرضٍ. كما تفعل الشركات عند تقييم المطورين المرشحين للعمل عندها، نقوم بتقييم النماذج من خلال اختبار الرموز المُنشَأة لديها على حالات اختبار. يتضمن معيارنا 10,000 مشكلة تتراوح بين تلك التي لها حلول بسيطة تتكون من سطر واحد وتلك التي تمثل تحديات خوارزمية كبيرة. قمنا بضبط النماذج اللغوية الكبيرة باستخدام بيانات GitHub ومجموعة البيانات الخاصة بنا للتدريب، ووجدنا أن شيوع الأخطاء النحوية ينخفض بشكل أسي مع تحسين النماذج. يمكن لنماذج حديثة مثل GPT-Neo أن تمر بنحو 20% من حالات الاختبار للمشكلات الأولية، مما يدل على أن نماذج التعلم الآلي بدأت الآن في التعلم كيفية البرمجة. مع زيادة الأهمية الاجتماعية لإنتاج الرموز آليًا خلال السنوات القادمة، يمكن لمقياسنا أن يوفر مؤشرًا مهمًا لمتابعة التقدم في هذا المجال.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

قياس كفاءة التحدي البرمجي باستخدام تطبيقات APPS

Dan Hendrycks Steven Basart Saurav Kadavath Mantas Mazeika Akul Arora Ethan Guo Collin Burns Samir Puranik Horace He Dawn Song1 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

قياس كفاءة التحدي البرمجي باستخدام تطبيقات APPS

Dan Hendrycks Steven Basart Saurav Kadavath Mantas Mazeika Akul Arora Ethan Guo Collin Burns Samir Puranik Horace He Dawn Song1 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

قياس كفاءة التحدي البرمجي باستخدام تطبيقات APPS

Dan Hendrycks Steven Basart Saurav Kadavath Mantas Mazeika Akul Arora Ethan Guo Collin Burns Samir Puranik Horace He Dawn Song1 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Dan Hendrycks Steven Basart Saurav Kadavath Mantas Mazeika Akul Arora Ethan Guo Collin Burns Samir Puranik Horace He Dawn Song

Dan Hendrycks Steven Basart Saurav Kadavath Mantas Mazeika Akul Arora Ethan Guo Collin Burns Samir Puranik Horace He Dawn Song

Dan Hendrycks Steven Basart Saurav Kadavath Mantas Mazeika Akul Arora Ethan Guo Collin Burns Samir Puranik Horace He Dawn Song