منذ 6 أشهر

الملخص

يتميز تدريب الشبكات العصبية العميقة ذات التراكيب المتعددة (ResNets) باستخدام خوارزمية الانتشار العكسي (backpropagation) بتكاليف ذاكرة تزداد بشكل خطي بالنسبة إلى عمق الشبكة. وتساعد الطرق البديلة التي تعتمد على الهياكل القابلة للعكس في التغلب على هذه المشكلة. في هذه الورقة، نقترح تغيير قاعدة التمرير الأمامي (forward rule) لشبكة ResNet من خلال إضافة مصطلح زخم (momentum). النتائج هي شبكات عصبية متعددة ذات زخم (Momentum ResNets)، وهي قابلة للعكس. على عكس الهياكل القابلة للعكس السابقة، يمكن استخدامها كبديل مباشر (drop-in replacement) لأي كتلة ResNet موجودة. نُظهر أن شبكات Momentum ResNets يمكن تفسيرها في نطاق الخطوات اللامتناهية الصغر كمعادلات تفاضلية عادية من الدرجة الثانية (ODEs)، ونُحدد بدقة كيف يؤدي إضافة الزخم إلى زيادة تدريجية لقدرات التمثيل في شبكات Momentum ResNets. تُظهر التحليلات أن شبكات Momentum ResNets قادرة على تعلم أي تطبيق خطي حتى عامل ضرب، بينما لا يمكن لشبكات ResNets تحقيق ذلك. وفي سياق تعلم التحسين (learning to optimize)، حيث يتطلب التقارب إلى نقطة ثابتة، نُظهر نظريًا وتجريبيًا أن طريقة لدينا تنجح بينما تفشل الهياكل القابلة للعكس الحالية. كما نُظهر على مجموعتي بيانات CIFAR وImageNet أن شبكات Momentum ResNets تحقق نفس دقة الشبكات ResNets، مع حجم ذاكرة أصغر بكثير، ونُظهر أن الشبكات المُدرّبة مسبقًا باستخدام Momentum ResNets واعدة جدًا في عمليات التخصيص الدقيق (fine-tuning) للنماذج.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار