HyperAIHyperAI

Command Palette

Search for a command to run...

استخدام DeepSpeed وMegatron لتدريب نموذج اللغة العريض التوليدية Megatron-Turing NLG 530B

الملخص

يمكن للنماذج اللغوية العامة المُدرَّبة مسبقًا أن تحقق دقةً متقدمة جدًا في مجالات معالجة اللغة الطبيعية المختلفة من خلال التكيّف مع المهام النهائية باستخدام تقنيات الصفر-العينة (zero-shot)، والعينات القليلة (few-shot)، والتعديل الدقيق (fine-tuning). وبسبب نجاحها، زاد حجم هذه النماذج بشكل سريع، مما يتطلب أجهزة عالية الأداء، وبرمجيات، وتقنيات خوارزمية لتمكين تدريب نماذج ضخمة جدًا. وبالنتيجة لجهود مشتركة بين مايكروسوفت وNVIDIA، نقدّم تفاصيل حول تدريب أكبر نموذج لغوي مبني على مُحولّ (Transformer) مُوحَّد، يُدعى Megatron-Turing NLG 530B (MT-NLG)، والذي يحتوي على 530 مليار معلمة. في هذه الورقة البحثية، نركّز أولًا على البنية التحتية والمنهجية ثلاثية الأبعاد للتوحيد (3D parallelism) المستخدمة لتدريب هذا النموذج باستخدام DeepSpeed وMegatron. ثم نفصّل عملية التدريب، وتصميم مجموعتنا التدريبية، وتقنيات تنظيف البيانات، والتي نعتقد أنها عنصر رئيسي في نجاح النموذج. وأخيرًا، نناقش نتائج التقييم المختلفة، بالإضافة إلى ملاحظات مثيرة للاهتمام وخصائص جديدة تُظهرها MT-NLG. ونُظهر أن MT-NLG تحقق دقةً متفوقة في التعلم من الصفر، والعينة الواحدة، والعينات القليلة على عدة معايير في معالجة اللغة الطبيعية، وتُسجّل نتائجًا جديدة في مستوى الحد الأقصى (state-of-the-art). ونعتقد أن مساهماتنا ستساهم في دفع عجلة تطوير البنية التحتية لتدريب النماذج الضخمة، والنموذج اللغوي الكبير، وإنشاء اللغة الطبيعية.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
استخدام DeepSpeed وMegatron لتدريب نموذج اللغة العريض التوليدية Megatron-Turing NLG 530B | مستندات | HyperAI