منذ 6 أشهر

الملخص

يُقترح في هذه الورقة معمارية MLP مُزاحة محوريًا (AS-MLP). على عكس معمارية MLP-Mixer، التي تُشفِّر الميزة الفضائية العالمية لتدفق المعلومات عبر تحويل المصفوفة وMLP واحد للتعامل مع الرموز (token-mixing)، نولي اهتمامًا أكبر تفاعل الميزات المحلية. من خلال إزاحة القنوات بشكل محوري في خريطة الميزة، يمكن لـ AS-MLP استخلاص تدفق المعلومات من اتجاهات محورية مختلفة، مما يُمكّن من التقاط الاعتماديات المحلية. يُمكّن هذا الإجراء من استخدام بنية MLP نقية لتحقيق مجال استقبال محلي مماثل للهياكل المشابهة لشبكات التعلم التلقائي التلافيفي (CNN). كما يمكننا تصميم حجم مجال الاستقبال وتمدد الكتل في AS-MLP، تمامًا كما يتم في الشبكات العصبية التلافيفية. وباستخدام المعمارية المقترحة، يحقق نموذجنا دقة Top-1 قدرها 83.3% باستخدام 88 مليون معلمة و15.2 غيغافلوب على مجموعة بيانات ImageNet-1K. تفوق هذه المعمارية البسيطة ولكن الفعالة جميع المعماريات القائمة على MLP، وتُحقق أداءً تنافسيًا مقارنة بالهياكل القائمة على المحولات (مثل Swin Transformer)، حتى مع عدد أقل قليلًا من العمليات الحسابية (FLOPs). بالإضافة إلى ذلك، يُعد AS-MLP أول معمارية قائمة على MLP تُطبَّق على المهام السفلية (مثل كشف الكائنات والتقسيم الدلالي). وتشير النتائج التجريبية إلى أداء مبهر: يحقق AS-MLP 51.5 متوسط الدقة (mAP) على مجموعة التحقق من COCO و49.5 متوسط مقياس التداخل فوق التكرار (MS mIoU) على مجموعة بيانات ADE20K، وهو أداء تنافسي مقارنة بالهياكل القائمة على المحولات. تُرسخ هذه الدراسة AS-MLP قاعدة أساسية قوية للهياكل القائمة على MLP. يمكن الوصول إلى الكود من خلال: https://github.com/svip-lab/AS-MLP.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار