HyperAI

مشكلة التدرج المتفجر

مشكلة التدرجات المتفجرةيحدث هذا عادةً في الشبكات العميقة عندما تكون قيمة تهيئة الوزن كبيرة جدًا، ويصبح الأمر أكثر وضوحًا بشكل عام مع زيادة عدد طبقات الشبكة.

من خلال أخذ المشتق لدالة التنشيط، إذا كانت النتيجة أكبر من 1، فمع زيادة عدد الطبقات، سيزداد تحديث التدرج النهائي بشكل كبير، أي يحدث انفجار التدرج؛ إذا كانت النتيجة أقل من 1، فمع زيادة عدد الطبقات، سوف يتلاشى تحديث التدرج النهائي بشكل كبير، أي يحدث اختفاء التدرج.

الأسباب الرئيسية لانفجار التدرج واختفاء التدرج هي أن الشبكة عميقة للغاية وتحديث وزن الشبكة غير مستقر. في الأساس، يرجع ذلك إلى وجود تأثير مضاعف في انتشار التدرج الخلفي. بالنسبة لمشكلة التلاشي المتدرج، يمكنك التفكير في استبدال دالة تنشيط Sigmoid بدالة تنشيط ReLU. بالإضافة إلى ذلك، يمكن لتصميم هيكل LSTM أيضًا تحسين مشكلة التلاشي المتدرج في RNN.

حلول لمشكلة التدرجات المتفجرة

  • التدريب المسبق بالإضافة إلى الضبط الدقيق
  • قص التدرج، وتنظيم الوزن
  • استخدام وظائف التنشيط المختلفة
  • استخدام Batchnorm
  • استخدام البنية المتبقية
  • استخدام شبكة LSTM

مراجع

【1】التدرجات المتلاشية والمتفجرة في تدريب الشبكات العصبية

【2】مشكلة عدم استقرار التدرج في الشبكات العصبية العميقة - اختفاء التدرج وانفجار التدرج

【3】شرح مفصل لأسباب وحلول اختفاء التدرج والانفجار في التعلم الآلي