إرشادات لتسوية جاماتا في التطبيع بالدفعة للشبكات العميقة ذات التعميق

يُستخدم الت régularization من الدرجة الثانية (L2) للوزن في الشبكات العصبية بشكل واسع كتقنية تدريب قياسية. ومع ذلك، يظل الت régularization من الدرجة الثانية (L2) لمعامل الغاما (gamma)، وهو معلمة قابلة للتدريب في التطبيع بالدفعة (batch normalization)، لغزاً غير مُناقش، ويُطبّق بطرق مختلفة حسب المكتبة أو المُمارس. في هذه الورقة، ندرس ما إذا كان تطبيق L2 regularization على الغاما مبررًا أم لا. ولاستكشاف هذه المسألة، ننظر في طريقتين: 1) التحكم في التباين لجعل الشبكة المتبقية (residual network) تتصرف كتحويل هووي (identity mapping)، و2) التحسين المستقر من خلال تحسين معدل التعلم الفعّال. من خلال التحليلين، نحدد الغامات المرغوبة وغير المرغوبة التي ينبغي تطبيق L2 regularization عليها، ونُقدّم أربع إرشادات لإدارتها. في عدة تجارب، لاحظنا الزيادة والانخفاض في الأداء الناتج عن تطبيق L2 regularization على الغاما في أربع فئات، وهو ما يتماشى مع إرشاداتنا الأربعة. وقد تم التحقق من صحة الإرشادات المقترحة عبر مهام وبنية متنوعة، تشمل متغيرات من الشبكات المتبقية (residual networks) والمحولات (transformers).