AutoDropout: تعلّم أنماط الحذف لتنظيم الشبكات العميقة

غالبًا ما تكون الشبكات العصبية مفرطة التخصيص (over-parameterized)، وبالتالي فهي تستفيد من الت régularisation المكثفة. تُعد الطرق التقليدية للـ regularization، مثل Dropout أو تقليل الوزن (weight decay)، غير فعّالة في استغلال الهياكل المُتاحة في مدخلات الشبكة والحالات المخفية (hidden states). نتيجة لذلك، تكون هذه الطرق التقليدية أقل فعالية مقارنةً بالطرق التي تستفيد من هذه الهياكل، مثل SpatialDropout وDropBlock، التي تقوم بحذف قيم عشوائية في مناطق متصلة معينة داخل الحالات المخفية ووضعها بقيمة صفر. وعلى الرغم من أن مواقع مناطق الحذف تكون عشوائية، إلا أن أنماط SpatialDropout وDropBlock مُصممة يدويًا وثابتة. في هذا العمل، نقترح تعلّم أنماط الحذف تلقائيًا. في طريقتنا، يتعلم مُتحكم (controller) إنشاء أنماط حذف في كل قناة وطبقية (layer) ضمن الشبكة المستهدفة، مثل ConvNet أو Transformer. ثم تُدرّس الشبكة المستهدفة باستخدام أنماط الحذف هذه، ويُستخدم أداء الشبكة على مجموعة التحقق (validation) كإشارات تعلّم للمُتحكم. نُظهر أن هذه الطريقة تعمل بشكل جيد في مهام التعرف على الصور على مجموعتي بيانات CIFAR-10 وImageNet، وكذلك في نمذجة اللغة على مجموعتي Penn Treebank وWikiText-2. كما تُظهر الأنماط المُتعلّمة قدرة على الانتقال (transfer) إلى مهام وبيانات مختلفة، مثل الانتقال من نموذج لغة على Penn Treebank إلى ترجمة إنجليزية-فرنسية على WMT 2014. سيتم إتاحة الكود الخاص بنا لاحقًا.