HyperAIHyperAI

Command Palette

Search for a command to run...

R-Drop: تراجع منظم للـ Dropout في الشبكات العصبية

Xiaobo Liang Lijun Wu Juntao Li Yue Wang Qi Meng Tao Qin Wei Chen Min Zhang Tie-Yan Liu

الملخص

الـ Dropout هي تقنية قوية وشائعة الاستخدام للتنظيم أثناء تدريب الشبكات العصبية العميقة. في هذه الورقة، نقدم استراتيجية تنظيم بسيطة قائمة على الـ Dropout أثناء تدريب النموذج، تُسمى R-Drop، والتي تُجبر التوزيعات الناتجة عن النماذج الفرعية المختلفة التي تُولَّد بواسطة الـ Dropout على أن تكون متسقة مع بعضها البعض. وبشكل محدد، يقلل R-Drop من التباين المتبادل (bidirectional KL-divergence) بين التوزيعات الناتجة عن نموذجين فرعيين يتم اختيارهما عشوائيًا باستخدام الـ Dropout لكل عينة تدريب. تُظهر التحليلات النظرية أن R-Drop يقلل من حرية معاملات النموذج، مما يكمل وظيفة الـ Dropout. وتشير التجارب على 5 مهام شائعة في التعلم العميق (تضم 18 مجموعة بيانات إجمالاً)، تشمل الترجمة الآلية للغات، والاستخلاص الموجز الاستنتاجي، وفهم اللغة، ونمذجة اللغة، والتصنيف الصوتي، إلى أن R-Drop فعّال بشكل عام. وبخاصة، يُحقّق تحسينات كبيرة عند تطبيقه على التدريب الدقيق للنماذج المُدرّبة مسبقًا كبيرة الحجم، مثل ViT وRoBERTa-large وBART، ويحقق أداءً منافسًا للحالة الراهنة (SOTA) باستخدام نموذج Transformer الأصلي على مهام الترجمة من الإنجليزية إلى الألمانية (WMT14) بنتيجة 30.91 في معيار BLEU، ومن الإنجليزية إلى الفرنسية (WMT14) بنتيجة 43.95 في معيار BLEU، حتى يفوق نماذج تم تدريبها باستخدام بيانات ضخمة إضافية، ونماذج متقدمة مصممة خصيصًا من نماذج Transformer. يمكن الوصول إلى الكود الخاص بنا عبر GitHub: \url{https://github.com/dropreg/R-Drop}.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp