منذ 9 أيام

استخدام DeepSpeed وMegatron لتدريب نموذج اللغة العريض التوليدية Megatron-Turing NLG 530B

Shaden Smith, Mostofa Patwary, Brandon Norick, Patrick LeGresley, Samyam Rajbhandari, Jared Casper, Zhun Liu, Shrimai Prabhumoye, George Zerveas, Vijay Korthikanti, Elton Zhang, Rewon Child, Reza Yazdani Aminabadi, Julie Bernauer, Xia Song, Mohammad Shoeybi, Yuxiong He, Michael Houston, Saurabh Tiwary, Bryan Catanzaro

عرض تفاصيل الورقة البحثية

استخدام DeepSpeed وMegatron لتدريب نموذج اللغة العريض التوليدية Megatron-Turing NLG 530B

الملخص

يمكن للنماذج اللغوية العامة المُدرَّبة مسبقًا أن تحقق دقةً متقدمة جدًا في مجالات معالجة اللغة الطبيعية المختلفة من خلال التكيّف مع المهام النهائية باستخدام تقنيات الصفر-العينة (zero-shot)، والعينات القليلة (few-shot)، والتعديل الدقيق (fine-tuning). وبسبب نجاحها، زاد حجم هذه النماذج بشكل سريع، مما يتطلب أجهزة عالية الأداء، وبرمجيات، وتقنيات خوارزمية لتمكين تدريب نماذج ضخمة جدًا. وبالنتيجة لجهود مشتركة بين مايكروسوفت وNVIDIA، نقدّم تفاصيل حول تدريب أكبر نموذج لغوي مبني على مُحولّ (Transformer) مُوحَّد، يُدعى Megatron-Turing NLG 530B (MT-NLG)، والذي يحتوي على 530 مليار معلمة. في هذه الورقة البحثية، نركّز أولًا على البنية التحتية والمنهجية ثلاثية الأبعاد للتوحيد (3D parallelism) المستخدمة لتدريب هذا النموذج باستخدام DeepSpeed وMegatron. ثم نفصّل عملية التدريب، وتصميم مجموعتنا التدريبية، وتقنيات تنظيف البيانات، والتي نعتقد أنها عنصر رئيسي في نجاح النموذج. وأخيرًا، نناقش نتائج التقييم المختلفة، بالإضافة إلى ملاحظات مثيرة للاهتمام وخصائص جديدة تُظهرها MT-NLG. ونُظهر أن MT-NLG تحقق دقةً متفوقة في التعلم من الصفر، والعينة الواحدة، والعينات القليلة على عدة معايير في معالجة اللغة الطبيعية، وتُسجّل نتائجًا جديدة في مستوى الحد الأقصى (state-of-the-art). ونعتقد أن مساهماتنا ستساهم في دفع عجلة تطوير البنية التحتية لتدريب النماذج الضخمة، والنموذج اللغوي الكبير، وإنشاء اللغة الطبيعية.