HyperAIHyperAI
منذ 17 أيام

AS-MLP: معمارية MLP مُزَاحٍ محوريّة للرؤية

Dongze Lian, Zehao Yu, Xing Sun, Shenghua Gao
AS-MLP: معمارية MLP مُزَاحٍ محوريّة للرؤية
الملخص

يُقترح في هذه الورقة معمارية MLP مُزاحة محوريًا (AS-MLP). على عكس معمارية MLP-Mixer، التي تُشفِّر الميزة الفضائية العالمية لتدفق المعلومات عبر تحويل المصفوفة وMLP واحد للتعامل مع الرموز (token-mixing)، نولي اهتمامًا أكبر تفاعل الميزات المحلية. من خلال إزاحة القنوات بشكل محوري في خريطة الميزة، يمكن لـ AS-MLP استخلاص تدفق المعلومات من اتجاهات محورية مختلفة، مما يُمكّن من التقاط الاعتماديات المحلية. يُمكّن هذا الإجراء من استخدام بنية MLP نقية لتحقيق مجال استقبال محلي مماثل للهياكل المشابهة لشبكات التعلم التلقائي التلافيفي (CNN). كما يمكننا تصميم حجم مجال الاستقبال وتمدد الكتل في AS-MLP، تمامًا كما يتم في الشبكات العصبية التلافيفية. وباستخدام المعمارية المقترحة، يحقق نموذجنا دقة Top-1 قدرها 83.3% باستخدام 88 مليون معلمة و15.2 غيغافلوب على مجموعة بيانات ImageNet-1K. تفوق هذه المعمارية البسيطة ولكن الفعالة جميع المعماريات القائمة على MLP، وتُحقق أداءً تنافسيًا مقارنة بالهياكل القائمة على المحولات (مثل Swin Transformer)، حتى مع عدد أقل قليلًا من العمليات الحسابية (FLOPs). بالإضافة إلى ذلك، يُعد AS-MLP أول معمارية قائمة على MLP تُطبَّق على المهام السفلية (مثل كشف الكائنات والتقسيم الدلالي). وتشير النتائج التجريبية إلى أداء مبهر: يحقق AS-MLP 51.5 متوسط الدقة (mAP) على مجموعة التحقق من COCO و49.5 متوسط مقياس التداخل فوق التكرار (MS mIoU) على مجموعة بيانات ADE20K، وهو أداء تنافسي مقارنة بالهياكل القائمة على المحولات. تُرسخ هذه الدراسة AS-MLP قاعدة أساسية قوية للهياكل القائمة على MLP. يمكن الوصول إلى الكود من خلال: https://github.com/svip-lab/AS-MLP.

AS-MLP: معمارية MLP مُزَاحٍ محوريّة للرؤية | أحدث الأوراق البحثية | HyperAI