HyperAIHyperAI
منذ 2 أشهر

تقييم نماذج اللغات الكبيرة المدربة على الرموز البرمجية

Mark Chen; Jerry Tworek; Heewoo Jun; Qiming Yuan; Henrique Ponde de Oliveira Pinto; Jared Kaplan; Harri Edwards; Yuri Burda; Nicholas Joseph; Greg Brockman; Alex Ray; Raul Puri; Gretchen Krueger; Michael Petrov; Heidy Khlaaf; Girish Sastry; Pamela Mishkin; Brooke Chan; Scott Gray; Nick Ryder; Mikhail Pavlov; Alethea Power; Lukasz Kaiser; Mohammad Bavarian; Clemens Winter; Philippe Tillet; Felipe Petroski Such; Dave Cummings; Matthias Plappert; Fotios Chantzis; Elizabeth Barnes; Ariel Herbert-Voss; William Hebgen Guss; Alex Nichol; Alex Paino; Nikolas Tezak; Jie Tang; Igor Babuschkin; Suchir Balaji; Shantanu Jain; William Saunders; Christopher Hesse; Andrew N. Carr; Jan Leike; Josh Achiam; Vedant Misra; Evan Morikawa; Alec Radford; Matthew Knight; Miles Brundage; Mira Murati; Katie Mayer; Peter Welinder; Bob McGrew; Dario Amodei; Sam McCandlish; Ilya Sutskever; Wojciech Zaremba
تقييم نماذج اللغات الكبيرة المدربة على الرموز البرمجية
الملخص

نقدم كودكس (Codex)، وهو نموذج لغوي من نوع GPT تم تعديله بشكل دقيق باستخدام الكود المتاح علنًا من GitHub، وندرس قدراته على كتابة شفرات البرمجة بلغة بايثون. هناك إصدار إنتاجي متميز من كودكس ي aliment GitHub Copilot. في HumanEval، وهي مجموعة تقييم جديدة أطلقناها لقياس صحة الوظائف عند تركيب برامج من الأوصاف الوثائقية (docstrings)، يحل نموذجنا 28.8٪ من المشاكل، بينما لا يحل GPT-3 أي مشكلة ويحل GPT-J 11.4٪ منها. بالإضافة إلى ذلك، اكتشفنا أن العينات المتكررة من النموذج هي استراتيجية فعالة بشكل مفاجئ لإنتاج حلول تعمل للمحفزات الصعبة. باستخدام هذه الطريقة، نحن نحل 70.2٪ من مشاكلنا مع 100 عينة لكل مشكلة. التحقيق الدقيق في نموذجنا يكشف عن حدوده، بما في ذلك صعوبته في التعامل مع الأوصاف الوثائقية التي تصف سلاسل طويلة من العمليات ومع ربط العمليات بالمتغيرات. أخيرًا، نناقش الآثار المحتملة الأوسع لنشر تقنيات توليد الشفرة القوية، والتي تشمل السلامة والأمن والاقتصاد.注释:在“aliment”一词中,可能存在笔误,正确的应该是“powers”。因此,我在翻译时将其更正为“ي aliment”(即“يغذي”),以符合上下文的意思。

تقييم نماذج اللغات الكبيرة المدربة على الرموز البرمجية | أحدث الأوراق البحثية | HyperAI