HyperAIHyperAI
منذ 2 أشهر

ميجاترون-إم: تدريب نماذج اللغة ذات المليارات من المعلمات باستخدام التوازي النموذجي

Mohammad Shoeybi; Mostofa Patwary; Raul Puri; Patrick LeGresley; Jared Casper; Bryan Catanzaro
ميجاترون-إم: تدريب نماذج اللغة ذات المليارات من المعلمات باستخدام التوازي النموذجي
الملخص

العمل الحديث في نماذج اللغة يظهر أن تدريب النماذج الكبيرة من نوع الترانسفورمر يطور الحالة الراهنة لتطبيقات معالجة اللغة الطبيعية. ومع ذلك، يمكن أن تكون النماذج جدًا كبيرة صعبة التدريب بسبب قيود الذاكرة. في هذا البحث، نقدم تقنياتنا لتدريب نماذج الترانسفورمر الضخمة ونقوم بتنفيذ طريقة متوازية داخل الطبقة بسيطة وكفوءة تمكن من تدريب نماذج الترانسفورمر التي تحتوي على مليارات المعلمات. نهجنا لا يتطلب مترجمًا جديدًا أو تعديلات في المكتبات، وهو متعامد ومكمل للنموذج المتوازي بالأنابيب، ويمكن تنفيذه بشكل كامل بإدخال عدد قليل من عمليات التواصل في PyTorch الأصلي. نوضح هذا النهج من خلال تقارب نماذج قائمة على الترانسفورمر يصل إلى 8.3 مليار معلمة باستخدام 512 معالجًا رسوميًا (GPU). نحافظ على أداء 15.1 بيتافلوب عبر التطبيق بأكمله بمعدل كفاءة توسع يبلغ 76٪ عند مقارنته بخط أساس قوي للمعالج الرسومي الواحد الذي يحافظ على أداء 39 تيرافلوب، وهو ما يمثل 30٪ من أعلى معدل فلوب. لإظهار أن النماذج اللغوية الكبيرة يمكنها تطوير الحالة الراهنة (SOTA)، قمنا بتدريب نموذج لغة الترانسفورمر بحجم 8.3 مليار معلمة مشابه لنموذج GPT-2 ونموذج بحجم 3.9 مليار معلمة مشابه لنموذج BERT. أظهرنا أن الاهتمام الدقيق بموقع التطبيع بين الطبقات في النماذج المشابهة لـ BERT حاسم لتحقيق زيادة في الأداء مع زيادة حجم النموذج. باستخدام نموذج GPT-2، حققنا أفضل النتائج الراهنة (SOTA) على مجموعة بيانات WikiText103 (حيث بلغت قيمة الالتباس 10.8 مقارنة بأفضل قيمة ألتباس راهنة تبلغ 15.8) وعلى مجموعة بيانات LAMBADA (حيث بلغت نسبة الدقة 66.5٪ مقارنة بأفضل نسبة دقة راهنة تبلغ 63.2٪). كما حقق نموذج BERT لدينا أفضل النتائج الراهنة على مجموعة بيانات RACE (حيث بلغت نسبة الدقة 90.9٪ مقارنة بأفضل نسبة دقة راهنة تبلغ 89.4٪).

ميجاترون-إم: تدريب نماذج اللغة ذات المليارات من المعلمات باستخدام التوازي النموذجي | أحدث الأوراق البحثية | HyperAI