كود لامدا: نماذج أساسية مفتوحة للبرمجة

نُطلق نموذج Code Llama، وهي عائلة من النماذج اللغوية الكبيرة المُخصصة لكتابة الأكواد، مبنية على Llama 2، وتُظهر أداءً متميزًا بين النماذج المفتوحة المصدر، مع إمكانية تعبئة الفراغات (infilling)، ودعم لسياقات إدخال طويلة، وقدرة على اتباع التعليمات دون تدريب مسبق (zero-shot instruction following) في المهام البرمجية. نقدّم نسخًا متعددة لتغطية طيف واسع من التطبيقات: نماذج أساسية (Code Llama)، ونسخ مُخصصة للغة بايثون (Code Llama - Python)، ونماذج مُتخصصة في اتباع التعليمات (Code Llama - Instruct)، جميعها بمقاييس 7B و13B و34B و70B من المعلمات. جميع النماذج تم تدريبها على تسلسلات تتكون من 16 ألف رمز (token)، وتُظهر تحسينات في الأداء عند التعامل مع مدخلات تصل إلى 100 ألف رمز. وتدعم نسخ Code Llama وCode Llama - Instruct بمقاييس 7B و13B و70B إمكانية تعبئة الفراغات (infilling) بناءً على السياق المحيط. ويحقق Code Llama أداءً متميزًا بين النماذج المفتوحة المصدر في عدة معايير تقييم الأكواد، مع تحقيق معدلات تصل إلى 67% و65% على معياري HumanEval وMBPP على التوالي. وبشكل ملحوظ، تفوق نسخة Code Llama - Python 7B نموذج Llama 2 70B في كلا المعيارين، كما تتفوق جميع نماذجنا على أي نموذج متاح بشكل عام في معيار MultiPL-E. تم إطلاق Code Llama تحت ترخيص مرن يسمح باستخدامه في الأبحاث والتطبيقات التجارية.