HyperAIHyperAI

Command Palette

Search for a command to run...

تقليل عمق الترانسفورمر حسب الطلب باستخدام التوقف المهيكل

Angela Fan Edouard Grave Armand Joulin

الملخص

حصلت شبكات الترانسفورمر المُفرطة التوافق (Overparameterized transformer networks) على نتائج رائدة في مجالات متعددة من معالجة اللغة الطبيعية، مثل الترجمة الآلية، ونمذجة اللغة، والإجابة على الأسئلة. تحتوي هذه النماذج على مئات الملايين من المعاملات، مما يستدعي كمًا كبيرًا من الحسابات ويُعرضها لخطر التوافق الزائد (overfitting). في هذا العمل، نستعرض طريقة "LayerDrop"، وهي شكل من أشكال التخفيض الهيكلي (structured dropout)، والتي تؤثر بشكل تنظيمي أثناء التدريب وتمكّن من عملية إزالة فعّالة للطبقات أثناء الاستدلال. وبشكل خاص، نُظهر أنه من الممكن اختيار شبكات فرعية بأي عمق من شبكة واحدة كبيرة دون الحاجة إلى تحسينها دقيقًا (finetuning)، مع تأثير محدود على الأداء. ونُثبت فعالية نهجنا من خلال تحسين النتائج القياسية في مهام الترجمة الآلية، ونمذجة اللغة، وتلخيص النصوص، والإجابة على الأسئلة، ومقاييس فهم اللغة. علاوة على ذلك، نُظهر أن نهجنا يؤدي إلى نماذج صغيرة مشابهة لنموذج BERT ولكن بجودة أعلى مقارنةً بتدريب النموذج من الصفر أو استخدام تقنية التجميع (distillation).


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp