منذ 9 أيام

GLaM: التوسع الفعّال للنماذج اللغوية باستخدام مزيج من الخبراء

Nan Du, Yanping Huang, Andrew M. Dai, Simon Tong, Dmitry Lepikhin, Yuanzhong Xu, Maxim Krikun, Yanqi Zhou, Adams Wei Yu, Orhan Firat, Barret Zoph, Liam Fedus, Maarten Bosma, Zongwei Zhou, Tao Wang, Yu Emma Wang, Kellie Webster, Marie Pellat, Kevin Robinson, Kathleen Meier-Hellstern, Toju Duke, Lucas Dixon, Kun Zhang, Quoc V Le, Yonghui Wu, Zhifeng Chen, Claire Cui

عرض تفاصيل الورقة البحثية

GLaM: التوسع الفعّال للنماذج اللغوية باستخدام مزيج من الخبراء

الملخص

إن توسيع نماذج اللغة من خلال زيادة البيانات، والقدرة الحاسوبية، وعدد المعاملات أدى إلى تقدم كبير في معالجة اللغة الطبيعية. على سبيل المثال، بفضل التوسيع، تمكن نموذج GPT-3 من تحقيق نتائج قوية في مهام التعلم السياقي. ومع ذلك، فإن تدريب هذه النماذج الكبيرة ذات الكثافة العالية يتطلب كميات كبيرة من الموارد الحاسوبية. في هذه الورقة، نقترح ونطور عائلة من نماذج اللغة تُسمى GLaM (نموذج اللغة العام)، والتي تستخدم بنية مزيج الخبراء النادرة النشطة (sparsely activated mixture-of-experts) لتوسيع قدرة النموذج مع تقليل تكاليف التدريب بشكل كبير مقارنة بالنسخ الكثيفة. يحتوي أكبر نموذج من عائلة GLaM على 1.2 تريليون معامل، وهو ما يعادل تقريبًا 7 أضعاف حجم نموذج GPT-3. كما يستهلك فقط ثلث الطاقة المستخدمة في تدريب GPT-3، ويحتاج إلى نصف عدد العمليات الحسابية (flops) المطلوبة للاستدلال، مع الحفاظ على أداء أفضل بشكل عام في المهام الصفرية والواحدة (zero-shot و one-shot) عبر 29 مهمة في معالجة اللغة الطبيعية.