HyperAIHyperAI

Command Palette

Search for a command to run...

شبكات العصبيات الضخمة بشكل مفرط: طبقة خليط الخبراء المفتوحة نادرًا

Noam Shazeer; Azalia Mirhoseini; Krzysztof Maziarz; Andy Davis; Quoc Le; Geoffrey Hinton; Jeff Dean

الملخص

قدرة الشبكة العصبية على امتصاص المعلومات تقتصر على عدد معلماتها. وقد تم تقترح الحوسبة الشرطية، حيث تكون أجزاء من الشبكة نشطة حسب كل مثال، كوسيلة لزيادة القدرة النموذجية بشكل كبير دون زيادة متناسبة في الحوسبة. ومع ذلك، هناك تحديات خوارزمية وأداء كبيرة في الممارسة العملية. في هذا العمل، نعالج هذه التحديات ونحقق أخيرًا وعد الحوسبة الشرطية، بتحقيق تحسينات تزيد عن 1000 مرة في قدرة النموذج مع خسائر طفيفة فقط في كفاءة الحوسبة علىusters GPU الحديثة. نقدم طبقة خليط الخبراء المُعَلَّمة بشكل مُنْتَقى (Sparsely-Gated Mixture-of-Experts - MoE)، والتي تتكون من آلاف الشبكات الفرعية ذات التغذية الأمامية. يحدد شبكة التحكم القابلة للتدريب تركيبة منتقاة من هؤلاء الخبراء لاستخدامها لكل مثال. نطبق خليط الخبراء على مهام النمذجة اللغوية والترجمة الآلية، حيث تعتبر قدرة النموذج حاسمة لامتصاص الكميات الهائلة من المعرفة المتاحة في السجلات التدريبية. نقدم هياكل نماذج فيها يتم تطبيق خليط الخبراء ذو الـ 137 مليار معلمة بشكل متكرر بين طبقات LSTM المتراكمة. وفي مقاييس النمذجة اللغوية والترجمة الآلية الكبيرة، تحقق هذه النماذج نتائج أفضل بكثير من الأفضل الموجود حالياً وبتكلفة حوسبية أقل.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp