ديب سيك كودر: عندما يلتقي النموذج اللغوي الكبير بالبرمجة — صعود الذكاء البرمجي

أدى التطور السريع للنماذج اللغوية الكبيرة إلى ثورة في ذكاء البرمجة ضمن تطوير البرمجيات. ومع ذلك، فإن هيمنة النماذج المغلقة المصدر قد قيدت الأبحاث والتطوير الواسعين. ولحل هذه المشكلة، نقدم سلسلة DeepSeek-Coder، وهي مجموعة من النماذج المفتوحة المصدر الخاصة بالبرمجة، بحجم يتراوح بين 1.3 مليار و33 مليار معلمة، تم تدريبها من الصفر على 2 تريليون رمز. تم تدريب هذه النماذج مسبقًا على مجموعة بيانات عالية الجودة تتضمن مشاريع برمجية كاملة، وتستخدم مهمة استكمال الفراغات مع نافذة تصل إلى 16 ألف رمز لتعزيز إنشاء الكود واستكماله. وقد أظهرت تقييماتنا الواسعة أن نموذج DeepSeek-Coder لا يحقق أداءً متفوقًا على النماذج المفتوحة المصدر في عدة معايير، بل يتفوق أيضًا على نماذج مغلقة المصدر الحالية مثل Codex وGPT-3.5. علاوةً على ذلك، تُخضع نماذج DeepSeek-Coder لرخصة مرنة تسمح بالاستخدام في الأبحاث والتطبيقات التجارية دون قيود.