تقليل عمق الترانسفورمر حسب الطلب باستخدام التوقف المهيكل

حصلت شبكات الترانسفورمر المُفرطة التوافق (Overparameterized transformer networks) على نتائج رائدة في مجالات متعددة من معالجة اللغة الطبيعية، مثل الترجمة الآلية، ونمذجة اللغة، والإجابة على الأسئلة. تحتوي هذه النماذج على مئات الملايين من المعاملات، مما يستدعي كمًا كبيرًا من الحسابات ويُعرضها لخطر التوافق الزائد (overfitting). في هذا العمل، نستعرض طريقة "LayerDrop"، وهي شكل من أشكال التخفيض الهيكلي (structured dropout)، والتي تؤثر بشكل تنظيمي أثناء التدريب وتمكّن من عملية إزالة فعّالة للطبقات أثناء الاستدلال. وبشكل خاص، نُظهر أنه من الممكن اختيار شبكات فرعية بأي عمق من شبكة واحدة كبيرة دون الحاجة إلى تحسينها دقيقًا (finetuning)، مع تأثير محدود على الأداء. ونُثبت فعالية نهجنا من خلال تحسين النتائج القياسية في مهام الترجمة الآلية، ونمذجة اللغة، وتلخيص النصوص، والإجابة على الأسئلة، ومقاييس فهم اللغة. علاوة على ذلك، نُظهر أن نهجنا يؤدي إلى نماذج صغيرة مشابهة لنموذج BERT ولكن بجودة أعلى مقارنةً بتدريب النموذج من الصفر أو استخدام تقنية التجميع (distillation).