تقييم نماذج اللغات الكبيرة المدربة على الرموز البرمجية

نقدم كودكس (Codex)، وهو نموذج لغوي من نوع GPT تم تعديله بشكل دقيق باستخدام الكود المتاح علنًا من GitHub، وندرس قدراته على كتابة شفرات البرمجة بلغة بايثون. هناك إصدار إنتاجي متميز من كودكس ي aliment GitHub Copilot. في HumanEval، وهي مجموعة تقييم جديدة أطلقناها لقياس صحة الوظائف عند تركيب برامج من الأوصاف الوثائقية (docstrings)، يحل نموذجنا 28.8٪ من المشاكل، بينما لا يحل GPT-3 أي مشكلة ويحل GPT-J 11.4٪ منها. بالإضافة إلى ذلك، اكتشفنا أن العينات المتكررة من النموذج هي استراتيجية فعالة بشكل مفاجئ لإنتاج حلول تعمل للمحفزات الصعبة. باستخدام هذه الطريقة، نحن نحل 70.2٪ من مشاكلنا مع 100 عينة لكل مشكلة. التحقيق الدقيق في نموذجنا يكشف عن حدوده، بما في ذلك صعوبته في التعامل مع الأوصاف الوثائقية التي تصف سلاسل طويلة من العمليات ومع ربط العمليات بالمتغيرات. أخيرًا، نناقش الآثار المحتملة الأوسع لنشر تقنيات توليد الشفرة القوية، والتي تشمل السلامة والأمن والاقتصاد.注释:在“aliment”一词中,可能存在笔误,正确的应该是“powers”。因此,我在翻译时将其更正为“ي aliment”(即“يغذي”),以符合上下文的意思。