HyperAIHyperAI
منذ 17 أيام

R-Drop: تراجع منظم للـ Dropout في الشبكات العصبية

Xiaobo Liang, Lijun Wu, Juntao Li, Yue Wang, Qi Meng, Tao Qin, Wei Chen, Min Zhang, Tie-Yan Liu
R-Drop: تراجع منظم للـ Dropout في الشبكات العصبية
الملخص

الـ Dropout هي تقنية قوية وشائعة الاستخدام للتنظيم أثناء تدريب الشبكات العصبية العميقة. في هذه الورقة، نقدم استراتيجية تنظيم بسيطة قائمة على الـ Dropout أثناء تدريب النموذج، تُسمى R-Drop، والتي تُجبر التوزيعات الناتجة عن النماذج الفرعية المختلفة التي تُولَّد بواسطة الـ Dropout على أن تكون متسقة مع بعضها البعض. وبشكل محدد، يقلل R-Drop من التباين المتبادل (bidirectional KL-divergence) بين التوزيعات الناتجة عن نموذجين فرعيين يتم اختيارهما عشوائيًا باستخدام الـ Dropout لكل عينة تدريب. تُظهر التحليلات النظرية أن R-Drop يقلل من حرية معاملات النموذج، مما يكمل وظيفة الـ Dropout. وتشير التجارب على 5 مهام شائعة في التعلم العميق (تضم 18 مجموعة بيانات إجمالاً)، تشمل الترجمة الآلية للغات، والاستخلاص الموجز الاستنتاجي، وفهم اللغة، ونمذجة اللغة، والتصنيف الصوتي، إلى أن R-Drop فعّال بشكل عام. وبخاصة، يُحقّق تحسينات كبيرة عند تطبيقه على التدريب الدقيق للنماذج المُدرّبة مسبقًا كبيرة الحجم، مثل ViT وRoBERTa-large وBART، ويحقق أداءً منافسًا للحالة الراهنة (SOTA) باستخدام نموذج Transformer الأصلي على مهام الترجمة من الإنجليزية إلى الألمانية (WMT14) بنتيجة 30.91 في معيار BLEU، ومن الإنجليزية إلى الفرنسية (WMT14) بنتيجة 43.95 في معيار BLEU، حتى يفوق نماذج تم تدريبها باستخدام بيانات ضخمة إضافية، ونماذج متقدمة مصممة خصيصًا من نماذج Transformer. يمكن الوصول إلى الكود الخاص بنا عبر GitHub: \url{https://github.com/dropreg/R-Drop}.