GLM-130B: نموذج مُدرب ثنائي اللغة مفتوح المصدر

نقدم نموذج GLM-130B، وهو نموذج مُدرب مسبق للغات الثنائية (الإنجليزية والصينية) يحتوي على 130 مليار معلمة. هذا النموذج هو محاولة لجعل نموذج بحجم 100 مليار على الأقل بنفس جودة GPT-3 (davinci) متاحًا كمصدر مفتوح وكشف كيفية تدريب النماذج بهذا الحجم بنجاح. خلال هذه الجهود، واجهنا العديد من التحديات الفنية والهندسية غير المتوقعة، خاصة فيما يتعلق بارتفاع الخسائر والانحراف. في هذا البحث، نقدم عملية تدريب GLM-130B، بما في ذلك خيارات التصميم واستراتيجيات التدريب لتحقيق الكفاءة والاستقرار، وجهود الهندسة. يقدم النموذج الناتج GLM-130B أداءً أفضل بكثير من GPT-3 175B (davinci) في مجموعة واسعة من مقاييس الإنجليزية الشائعة، بينما لم يتم رصد هذا التفوق في أداء OPT-175B و BLOOM-176B. كما أنه يتفوق بشكل مستمر وأكبر على ERNIE TITAN 3.0 260B -- أكبر نموذج للغة الصينية -- في المقاييس ذات الصلة. أخيرًا، استفدنا من خاصية توسع فريدة لنموذج GLM-130B للوصول إلى كمّة INT4 دون الحاجة إلى تدريب ما بعد مع وجود خسارة أداء طفيفة تقريبًا، مما يجعله أول نموذج ضمن نطاق حجم 100 مليار يحقق ذلك وأكثر أهمية، يسمح بالاستدلال الفعال عليه باستخدام بطاقات الرسوميات RTX 3090 (24G) أو RTX 2080 Ti (11G) بأربع أو ثماني بطاقات على التوالي، وهي أقل تكلفة من البطاقات المطلوبة لاستخدام نماذج بحجم 100 مليار. يمكن الوصول إلى وزن النموذج GLM-130B بشكل عام، وقد تم إتاحة شفرته المصدرية وسجلات التدريب والأدوات ذات الصلة والدروس المستفادة عبر الرابط \url{https://github.com/THUDM/GLM-130B/}.