Command Palette
Search for a command to run...
ستاركودر 2 وستاك 2: الجيل التالي
ستاركودر 2 وستاك 2: الجيل التالي
الملخص
يُقدّم مشروع BigCode، وهو تعاون علمي مفتوح يركّز على التنمية المسؤولة للنماذج اللغوية الكبيرة الخاصة بالبرمجة (Code LLMs)، نموذج StarCoder2. وبالشراكة مع منظمة Software Heritage (SWH)، نبني The Stack v2 على أساس الموارد الرقمية المُتاحة في أرشيفها لملفات المصدر. وبالإضافة إلى مخازن SWH التي تغطي 619 لغة برمجة، نختار بعناية مصادر بيانات عالية الجودة أخرى، مثل طلبات الدمج (GitHub pull requests)، ومحرّكات كاغل (Kaggle notebooks)، وتوثيق الكود. ويؤدي ذلك إلى إنشاء مجموعة تدريبية أكبر بـ 4 أضعاف من مجموعة بيانات StarCoder الأولى. ندرّب نماذج StarCoder2 ذات 3B و7B و15B معلمة على 3.3 إلى 4.3 تريليون رمز (token)، ونُقيّمها بشكل شامل على مجموعة واسعة من معايير تقييم نماذج Code LLM. ونجد أن نموذجنا الصغير، StarCoder2-3B، يتفوّق على غيره من نماذج Code LLM ذات الحجم المماثل في معظم المعايير، كما يتفوّق على النموذج StarCoderBase-15B. أما النموذج الكبير، StarCoder2-15B، فيتفوّق بشكل ملحوظ على غيره من النماذج ذات الحجم المماثل، ويُقدّم أداءً مماثلاً أو أفضل من CodeLlama-34B، وهو نموذج يزيد حجمه أكثر من ضعف حجمه. وعلى الرغم من أن DeepSeekCoder-33B هو النموذج الأفضل أداءً في مهام إكمال الكود بالنسبة للغات ذات الموارد الكثيرة، فإننا نلاحظ أن StarCoder2-15B يتفوّق عليه في معايير التفكير الرياضي والبرمجة، وكذلك في عدة لغات ذات موارد محدودة. ونُزوّد بوزن النموذج تحت ترخيص OpenRAIL، ونضمن الشفافية الكاملة بشأن بيانات التدريب من خلال نشر معرفات مُستقلة لبيانات المصدر (SWHIDs) الخاصة بـ Software Heritage.