HyperAIHyperAI
منذ 2 أشهر

قياس كفاءة التحدي البرمجي باستخدام تطبيقات APPS

Dan Hendrycks; Steven Basart; Saurav Kadavath; Mantas Mazeika; Akul Arora; Ethan Guo; Collin Burns; Samir Puranik; Horace He; Dawn Song; Jacob Steinhardt
قياس كفاءة التحدي البرمجي باستخدام تطبيقات APPS
الملخص

بينما تعد البرمجة من المهارات الأكثر انتشارًا واستخدامًا في المجتمع الحديث، فإن نماذج التعلم الآلي الحديثة لا تزال غير قادرة على كتابة حلول لمشاكل أساسية. رغم أهميتها، إلا أن هناك قلة ملحوظة في الأبحاث التي تقيم إنتاج الرموز (الكود)، وقد يكون من الصعب تقييم أداء إنتاج الرموز بدقة وبطريقة صارمة. لمواجهة هذا التحدي، نقدم APPS، وهو معيار لتقييم إنتاج الرموز. بخلاف الأعمال السابقة التي كانت تجري في بيئات مقيدة أكثر، يقيس معيارنا القدرة على فهم أي مواصفات بلغة طبيعية وإنتاج رمز بيثون (Python) مرضٍ. كما تفعل الشركات عند تقييم المطورين المرشحين للعمل عندها، نقوم بتقييم النماذج من خلال اختبار الرموز المُنشَأة لديها على حالات اختبار. يتضمن معيارنا 10,000 مشكلة تتراوح بين تلك التي لها حلول بسيطة تتكون من سطر واحد وتلك التي تمثل تحديات خوارزمية كبيرة. قمنا بضبط النماذج اللغوية الكبيرة باستخدام بيانات GitHub ومجموعة البيانات الخاصة بنا للتدريب، ووجدنا أن شيوع الأخطاء النحوية ينخفض بشكل أسي مع تحسين النماذج. يمكن لنماذج حديثة مثل GPT-Neo أن تمر بنحو 20% من حالات الاختبار للمشكلات الأولية، مما يدل على أن نماذج التعلم الآلي بدأت الآن في التعلم كيفية البرمجة. مع زيادة الأهمية الاجتماعية لإنتاج الرموز آليًا خلال السنوات القادمة، يمكن لمقياسنا أن يوفر مؤشرًا مهمًا لمتابعة التقدم في هذا المجال.

قياس كفاءة التحدي البرمجي باستخدام تطبيقات APPS | أحدث الأوراق البحثية | HyperAI