HyperAIHyperAI
منذ 11 أيام

هل نحن حقًا بحاجة إلى التفاصيل الزائدة المفرطة في التقدير؟ التقدير الزائد في الوقت المناسب في التدريب النادر

Shiwei Liu, Lu Yin, Decebal Constantin Mocanu, Mykola Pechenizkiy
هل نحن حقًا بحاجة إلى التفاصيل الزائدة المفرطة في التقدير؟ التقدير الزائد في الوقت المناسب في التدريب النادر
الملخص

في هذه الورقة، نقدم منظورًا جديدًا لتدريب الشبكات العصبية العميقة القادرة على الأداء المتميز دون الحاجة إلى التكبير المفرط في عدد المعاملات (over-parameterization) باهظ التكلفة، من خلال اقتراح مفهوم التكبير المفرط في الزمن (In-Time Over-Parameterization - ITOP) في سياق التدريب النادر. وذلك من خلال البدء بشبكة نادرة عشوائية واستكشاف متواصل للاتصالات النادرة خلال عملية التدريب، مما يمكّننا من إجراء عملية تكبير مفرط في الفضاء-الزمن (space-time manifold)، وبالتالي إغلاق الفجوة في القدرة التعبيرية بين التدريب النادر والتدريب الكثيف. ونستخدم ITOP لفهم الآلية الكامنة وراء التدريب النادر الديناميكي (Dynamic Sparse Training - DST)، ونوضح أن الفوائد التي تحققها DST تنبع من قدرتها على النظر في جميع المعاملات الممكنة عبر الزمن عند البحث عن أفضل توصيل نادر. طالما تم استكشاف عدد كافٍ من المعاملات بشكل موثوق خلال التدريب، يمكن لـ DST أن تتفوق على الشبكة العصبية الكثيفة بشكل كبير. ونقدم سلسلة من التجارب لدعم هذه الفرضية، ونحقق أداءً متميزًا في التدريب النادر باستخدام نموذج ResNet-50 على مجموعة بيانات ImageNet. وبشكل أكثر إثارة، يحقق منهجنا أداءً مهيمنًا على الطرق النادرة القائمة على التكبير المفرط عند مستويات ندرة قصوى. عند تدريبه على مجموعة بيانات CIFAR-100، يمكن لمنهجه أن يواكب أداء النموذج الكثيف حتى عند مستوى ندرة قصوى (98٪). يمكن الاطلاع على الكود من خلال الرابط التالي: https://github.com/Shiweiliuiiiiiii/In-Time-Over-Parameterization.

هل نحن حقًا بحاجة إلى التفاصيل الزائدة المفرطة في التقدير؟ التقدير الزائد في الوقت المناسب في التدريب النادر | أحدث الأوراق البحثية | HyperAI