HyperAIHyperAI
منذ 17 أيام

DeepMAD: تصميم المعمارية الرياضية للشبكات العصبية التلافيفية العميقة

Xuan Shen, Yaohua Wang, Ming Lin, Yilun Huang, Hao Tang, Xiuyu Sun, Yanzhi Wang
DeepMAD: تصميم المعمارية الرياضية للشبكات العصبية التلافيفية العميقة
الملخص

أدى التقدم السريع في نماذج التحويل البصري (Vision Transformer - ViT) إلى تحسين الأداء القياسي في مجموعة متنوعة من المهام البصرية، مما أدى إلى تراجع النماذج التقليدية المستندة إلى الشبكات العصبية التلافيفية (CNN). وقد أثار هذا تطورًا حديثًا في مجال CNN، حيث أظهرت أبحاث مبتكرة أن النماذج البحتة المبنية على CNN يمكنها تحقيق أداءً مماثلًا لأداء ViT عند ضبطها بدقة. وعلى الرغم من الإيجابية الملموسة لهذه النتائج، فإن تصميم نماذج CNN عالية الأداء يظل تحديًا كبيرًا، إذ يتطلب معرفة سابقة متقدمة في تصميم الشبكات. ولحل هذه المشكلة، تم اقتراح إطار عمل جديد يُسمى "التصميم الرياضي للبنية في الشبكات العصبية التلافيفية العميقة" (DeepMAD)، بهدف تصميم نماذج CNN عالية الأداء بطريقة منهجية ومقنعة. في إطار DeepMAD، تُمثل الشبكة CNN كنظام معالجة معلومات، ويمكن توصيف تعبيرها وفعاليتها تحليليًا من خلال معايير هيكلية محددة. ثم يتم صياغة مشكلة برمجة رياضية مقيدة (Mathematical Programming - MP) بهدف تحسين هذه المعايير الهيكلية. ويمكن حل هذه المشكلة بسهولة باستخدام حلول برمجية جاهزة لـ MP على وحدات المعالجة المركزية (CPU) مع استهلاك منخفض للذاكرة. بالإضافة إلى ذلك، يُعد DeepMAD إطارًا رياضيًا بحتًا: فلا حاجة لوحدات معالجة الرسومات (GPU) أو بيانات تدريب أثناء عملية تصميم الشبكة. وقد تم التحقق من تفوق DeepMAD على عدة مجموعات بيانات معيارية كبيرة في مجال الرؤية الحاسوبية. وتحديدًا على مجموعة بيانات ImageNet-1k، تم تحقيق دقة أعلى بنسبة 0.7% و1.5% في مقياس الدقة الأولى (top-1) مقارنةً بـ ConvNeXt وSwin على المستوى الصغير (Tiny)، وبنسبة 0.8% و0.9% على المستوى المتوسط (Small)، وذلك باستخدام فقط طبقات تلافيفية تقليدية.