HyperAIHyperAI

Command Palette

Search for a command to run...

GLaM: التوسع الفعّال للنماذج اللغوية باستخدام مزيج من الخبراء

الملخص

إن توسيع نماذج اللغة من خلال زيادة البيانات، والقدرة الحاسوبية، وعدد المعاملات أدى إلى تقدم كبير في معالجة اللغة الطبيعية. على سبيل المثال، بفضل التوسيع، تمكن نموذج GPT-3 من تحقيق نتائج قوية في مهام التعلم السياقي. ومع ذلك، فإن تدريب هذه النماذج الكبيرة ذات الكثافة العالية يتطلب كميات كبيرة من الموارد الحاسوبية. في هذه الورقة، نقترح ونطور عائلة من نماذج اللغة تُسمى GLaM (نموذج اللغة العام)، والتي تستخدم بنية مزيج الخبراء النادرة النشطة (sparsely activated mixture-of-experts) لتوسيع قدرة النموذج مع تقليل تكاليف التدريب بشكل كبير مقارنة بالنسخ الكثيفة. يحتوي أكبر نموذج من عائلة GLaM على 1.2 تريليون معامل، وهو ما يعادل تقريبًا 7 أضعاف حجم نموذج GPT-3. كما يستهلك فقط ثلث الطاقة المستخدمة في تدريب GPT-3، ويحتاج إلى نصف عدد العمليات الحسابية (flops) المطلوبة للاستدلال، مع الحفاظ على أداء أفضل بشكل عام في المهام الصفرية والواحدة (zero-shot و one-shot) عبر 29 مهمة في معالجة اللغة الطبيعية.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp