منذ 16 أيام

إرشادات لتسوية جاماتا في التطبيع بالدفعة للشبكات العميقة ذات التعميق

Bum Jun Kim, Hyeyeon Choi, Hyeonah Jang, Dong Gu Lee, Wonseok Jeong, Sang Woo Kim

الملخص

يُستخدم الت régularization من الدرجة الثانية (L2) للوزن في الشبكات العصبية بشكل واسع كتقنية تدريب قياسية. ومع ذلك، يظل الت régularization من الدرجة الثانية (L2) لمعامل الغاما (gamma)، وهو معلمة قابلة للتدريب في التطبيع بالدفعة (batch normalization)، لغزاً غير مُناقش، ويُطبّق بطرق مختلفة حسب المكتبة أو المُمارس. في هذه الورقة، ندرس ما إذا كان تطبيق L2 regularization على الغاما مبررًا أم لا. ولاستكشاف هذه المسألة، ننظر في طريقتين: 1) التحكم في التباين لجعل الشبكة المتبقية (residual network) تتصرف كتحويل هووي (identity mapping)، و2) التحسين المستقر من خلال تحسين معدل التعلم الفعّال. من خلال التحليلين، نحدد الغامات المرغوبة وغير المرغوبة التي ينبغي تطبيق L2 regularization عليها، ونُقدّم أربع إرشادات لإدارتها. في عدة تجارب، لاحظنا الزيادة والانخفاض في الأداء الناتج عن تطبيق L2 regularization على الغاما في أربع فئات، وهو ما يتماشى مع إرشاداتنا الأربعة. وقد تم التحقق من صحة الإرشادات المقترحة عبر مهام وبنية متنوعة، تشمل متغيرات من الشبكات المتبقية (residual networks) والمحولات (transformers).