HyperAIHyperAI
منذ 17 أيام

مزيج متوازن من SuperNets لتعلم بنية تجميع الشبكات العصبية التلافيفية

Mehraveh Javan, Matthew Toews, Marco Pedersoli
مزيج متوازن من SuperNets لتعلم بنية تجميع الشبكات العصبية التلافيفية
الملخص

تُعد طبقات التناقص (Downsampling layers)، بما في ذلك التجميع (pooling) والانسيابية ذات الخطوة (strided convolutions)، مكونات حاسمة في بنية الشبكات العصبية التلافيفية (convolutional neural network architecture)، حيث تحدد دقة/مقياس تحليل السمات في الصورة، فضلاً عن حجم مجال الاستقبال (receptive field) لطبقة معينة. ولفهم هذه المشكلة بشكل كامل، نحلل أداء النماذج التي تم تدريبها بشكل مستقل باستخدام كل تكوينات التجميع على مجموعة بيانات CIFAR10، باستخدام شبكة ResNet20، ونُظهر أن موقع طبقات التناقص يمكن أن يؤثر بشكل كبير على أداء الشبكة، وأن التكوينات المحددة مسبقًا لطبقات التناقص ليست مثالية. قد يُستخدم البحث في بنية الشبكة (Network Architecture Search - NAS) لتحسين تكوينات التناقص كمعلمة فائقة (hyperparameter). ومع ذلك، نجد أن الطرق الشائعة للـ NAS المبنية على نموذج واحد (one-shot NAS) تعتمد على SuperNet واحد فقط، ولا تعمل بشكل فعّال في هذا السياق. ونُقدّم حجّة تفيد بأن السبب في ذلك يكمن في أن SuperNet المُدرّب لتحديد التكوين الأمثل للتجميع يشارك معلماته بالكامل بين جميع التكوينات الممكنة للتجميع. وهذا يُعقّد عملية التدريب، لأن تعلّم بعض التكوينات قد يُضرّ بأداء التكوينات الأخرى. لذا، نقترح مزيجًا متوازنًا من SuperNets، والذي يُعدّ تلقائيًا تعيينًا للتجميعات المختلفة إلى نماذج وزن مختلفة، ويساعد على تقليل مشاركة الوزن والتأثير المتبادل بين تكوينات التجميع على معلمات SuperNet. وقد قُمنا بتقييم النهج المقترح على مجموعات بيانات CIFAR10 وCIFAR100 وFood101، ونُظهر أن النموذج المقترح يتفوّق في جميع الحالات على الطرق الأخرى، ويعزّز الأداء مقارنة بالتكوينات الافتراضية للتجميع.

مزيج متوازن من SuperNets لتعلم بنية تجميع الشبكات العصبية التلافيفية | أحدث الأوراق البحثية | HyperAI