شبكات العصبيات الضخمة بشكل مفرط: طبقة خليط الخبراء المفتوحة نادرًا

قدرة الشبكة العصبية على امتصاص المعلومات تقتصر على عدد معلماتها. وقد تم تقترح الحوسبة الشرطية، حيث تكون أجزاء من الشبكة نشطة حسب كل مثال، كوسيلة لزيادة القدرة النموذجية بشكل كبير دون زيادة متناسبة في الحوسبة. ومع ذلك، هناك تحديات خوارزمية وأداء كبيرة في الممارسة العملية. في هذا العمل، نعالج هذه التحديات ونحقق أخيرًا وعد الحوسبة الشرطية، بتحقيق تحسينات تزيد عن 1000 مرة في قدرة النموذج مع خسائر طفيفة فقط في كفاءة الحوسبة علىusters GPU الحديثة. نقدم طبقة خليط الخبراء المُعَلَّمة بشكل مُنْتَقى (Sparsely-Gated Mixture-of-Experts - MoE)، والتي تتكون من آلاف الشبكات الفرعية ذات التغذية الأمامية. يحدد شبكة التحكم القابلة للتدريب تركيبة منتقاة من هؤلاء الخبراء لاستخدامها لكل مثال. نطبق خليط الخبراء على مهام النمذجة اللغوية والترجمة الآلية، حيث تعتبر قدرة النموذج حاسمة لامتصاص الكميات الهائلة من المعرفة المتاحة في السجلات التدريبية. نقدم هياكل نماذج فيها يتم تطبيق خليط الخبراء ذو الـ 137 مليار معلمة بشكل متكرر بين طبقات LSTM المتراكمة. وفي مقاييس النمذجة اللغوية والترجمة الآلية الكبيرة، تحقق هذه النماذج نتائج أفضل بكثير من الأفضل الموجود حالياً وبتكلفة حوسبية أقل.