Command Palette
Search for a command to run...
الذهاب أبعد بدلاً من الأعماق
الذهاب أبعد بدلاً من الأعماق
Fuzhao Xue Ziji Shi Futao Wei Yuxuan Lou Yong Liu Yang You
الملخص
أحرزت كتل المحول (transformer blocks) ذات الاتصالات المتبقية (residual connections) نتائج مبهرة في مهام متعددة مؤخرًا. ولتحقيق أداء أفضل باستخدام عدد أقل من المعلمات القابلة للتدريب، تم اقتراح أساليب حديثة للتبسيط العمودي من خلال مشاركة المعلمات أو تقليل حجم النموذج مع العمق. ومع ذلك، فإن القدرة المحدودة على النمذجة تحد من أداء هذه الأساليب. في المقابل، فإن التوسيع الأفقي من خلال إدخال عدد أكبر من المصفوفات القابلة للتدريب والمعلمات سيؤدي إلى نموذج ضخم يتطلب موازنة متقدمة للتدريب والاستنتاج.في هذه الورقة، نقترح إطارًا فعّالًا من حيث المعلمات، يعتمد على التوسيع الأفقي بدلًا من التعميق. بشكل خاص، وفقًا للعمل السابق، نستخدم مشاركة المعلمات لتقليل الحجم أفقيًا. لكن هذا النهج قد يحد من الأداء. لتعظيم القدرة على النمذجة، نوسع النموذج أفقيًا من خلال استبدال شبكة التغذية الأمامية (FFN) بشبكة خبراء المزيج (MoE). كما نقترح، على مستوى كتل المحول، استخدام طبقات لايير نورم فردية بدلًا من مشاركة طبقات التطبيع، وذلك لتحويل التمثيلات الدلالية المختلفة بطريقة أكثر كفاءة من حيث المعلمات. لاختبار إطارنا الجاهز للتشغيل (plug-and-run)، قمنا بتصميم نموذج يُسمى WideNet، وقمنا بإجراء تجارب شاملة على معايير شهيرة في مجالات رؤية الحاسوب والمعالجة اللغوية الطبيعية. على مجموعة بيانات ImageNet-1K، تفوق نموذجنا الأفضل على نموذج المحول البصري (ViT) بنسبة 1.5% مع استخدام 0.72 مرة فقط من المعلمات القابلة للتدريب. وباستخدام 0.46 مرة و0.13 مرة من المعلمات، يمكن لـ WideNet أن يتفوق على ViT وViT-MoE على التوالي بنسبة 0.8% و2.1%. وعلى أربع مجموعات بيانات لمعالجة اللغة الطبيعية، تفوق WideNet على ALBERT بمتوسط 1.8%، وتفوق BERT باستخدام تعبير معلمات التضمين المفكك (factorized embedding parameterization) بنسبة 0.8%، مع استخدام عدد أقل من المعلمات.