CyclicMLP: معمارية شبه MLP للتنبؤ الكثيف

تقدم هذه الورقة معمارية بسيطة تشبه الشبكة العصبية المتعددة الطبقات (MLP)، تُدعى CycleMLP، وهي هيكل أساسي مرن للتمييز البصري والتنبؤات الكثيفة. مقارنةً بالهياكل الحديثة القائمة على MLP، مثل MLP-Mixer وResMLP وgMLP، التي تعتمد في هيكلها على حجم الصورة، مما يجعلها غير عملية في المهام مثل كشف الكائنات والتقسيم، فإن CycleMLP تمتلك ميزةين مقارنةً بالنهج الحديثة: (1) قدرتها على التعامل مع أحجام صور متنوعة، و(2) تحقيق تعقيد حسابي خطي بالنسبة لحجم الصورة من خلال استخدام نوافذ محلية. في المقابل، كانت الشبكات العصبية السابقة من نوع MLP تتطلب عمليات حسابية من الدرجة $O(N^2)$ بسبب الاتصالات المكانيّة الكاملة. وقد قمنا ببناء مجموعة من النماذج التي تتفوّق على النماذج الحالية القائمة على MLP، بل وحتى على النماذج الرائدة المستندة إلى Transformers، مثل Swin Transformer، مع استخدام عدد أقل من المعلمات وكمية أقل من العمليات الحسابية (FLOPs). وبهذا، نوسع نطاق تطبيق النماذج المشابهة لـ MLP، مما يجعلها هيكلًا أساسيًا مرنًا للوظائف التي تتطلب تنبوءات كثيفة. حققت CycleMLP نتائج تنافسية في مهام كشف الكائنات، والتقسيم الحاد، والتقسيم الدلالي. وبشكل خاص، تفوقت نسخة CycleMLP-Tiny على نسخة Swin-Tiny بنسبة 1.3% في مقياس mIoU على مجموعة بيانات ADE20K، مع استهلاك أقل من العمليات الحسابية. علاوةً على ذلك، تُظهر CycleMLP أداءً ممتازًا في المقاومة الصفرية (zero-shot robustness) على مجموعة بيانات ImageNet-C. يمكن الوصول إلى الكود عبر الرابط التالي: https://github.com/ShoufaChen/CycleMLP.