HyperAIHyperAI
منذ 17 أيام

شبكات عصبية تلافيفية ذات بقايا زخمية

Michael E. Sander, Pierre Ablin, Mathieu Blondel, Gabriel Peyré
شبكات عصبية تلافيفية ذات بقايا زخمية
الملخص

يتميز تدريب الشبكات العصبية العميقة ذات التراكيب المتعددة (ResNets) باستخدام خوارزمية الانتشار العكسي (backpropagation) بتكاليف ذاكرة تزداد بشكل خطي بالنسبة إلى عمق الشبكة. وتساعد الطرق البديلة التي تعتمد على الهياكل القابلة للعكس في التغلب على هذه المشكلة. في هذه الورقة، نقترح تغيير قاعدة التمرير الأمامي (forward rule) لشبكة ResNet من خلال إضافة مصطلح زخم (momentum). النتائج هي شبكات عصبية متعددة ذات زخم (Momentum ResNets)، وهي قابلة للعكس. على عكس الهياكل القابلة للعكس السابقة، يمكن استخدامها كبديل مباشر (drop-in replacement) لأي كتلة ResNet موجودة. نُظهر أن شبكات Momentum ResNets يمكن تفسيرها في نطاق الخطوات اللامتناهية الصغر كمعادلات تفاضلية عادية من الدرجة الثانية (ODEs)، ونُحدد بدقة كيف يؤدي إضافة الزخم إلى زيادة تدريجية لقدرات التمثيل في شبكات Momentum ResNets. تُظهر التحليلات أن شبكات Momentum ResNets قادرة على تعلم أي تطبيق خطي حتى عامل ضرب، بينما لا يمكن لشبكات ResNets تحقيق ذلك. وفي سياق تعلم التحسين (learning to optimize)، حيث يتطلب التقارب إلى نقطة ثابتة، نُظهر نظريًا وتجريبيًا أن طريقة لدينا تنجح بينما تفشل الهياكل القابلة للعكس الحالية. كما نُظهر على مجموعتي بيانات CIFAR وImageNet أن شبكات Momentum ResNets تحقق نفس دقة الشبكات ResNets، مع حجم ذاكرة أصغر بكثير، ونُظهر أن الشبكات المُدرّبة مسبقًا باستخدام Momentum ResNets واعدة جدًا في عمليات التخصيص الدقيق (fine-tuning) للنماذج.