GLaM: التوسع الفعّال للنماذج اللغوية باستخدام مزيج من الخبراء

إن توسيع نماذج اللغة من خلال زيادة البيانات، والقدرة الحاسوبية، وعدد المعاملات أدى إلى تقدم كبير في معالجة اللغة الطبيعية. على سبيل المثال، بفضل التوسيع، تمكن نموذج GPT-3 من تحقيق نتائج قوية في مهام التعلم السياقي. ومع ذلك، فإن تدريب هذه النماذج الكبيرة ذات الكثافة العالية يتطلب كميات كبيرة من الموارد الحاسوبية. في هذه الورقة، نقترح ونطور عائلة من نماذج اللغة تُسمى GLaM (نموذج اللغة العام)، والتي تستخدم بنية مزيج الخبراء النادرة النشطة (sparsely activated mixture-of-experts) لتوسيع قدرة النموذج مع تقليل تكاليف التدريب بشكل كبير مقارنة بالنسخ الكثيفة. يحتوي أكبر نموذج من عائلة GLaM على 1.2 تريليون معامل، وهو ما يعادل تقريبًا 7 أضعاف حجم نموذج GPT-3. كما يستهلك فقط ثلث الطاقة المستخدمة في تدريب GPT-3، ويحتاج إلى نصف عدد العمليات الحسابية (flops) المطلوبة للاستدلال، مع الحفاظ على أداء أفضل بشكل عام في المهام الصفرية والواحدة (zero-shot و one-shot) عبر 29 مهمة في معالجة اللغة الطبيعية.