HyperAIHyperAI
منذ 3 أشهر

MetaFormer هو ما تحتاجه فعلاً للرؤية

Weihao Yu, Mi Luo, Pan Zhou, Chenyang Si, Yichen Zhou, Xinchao Wang, Jiashi Feng, Shuicheng Yan
MetaFormer هو ما تحتاجه فعلاً للرؤية
الملخص

أظهرت نماذج التحويل (Transformers) إمكانات كبيرة في المهام المتعلقة بالرؤية الحاسوبية. يُعتقد شائعةً أن وحدة معالجة الرموز القائمة على الانتباه (attention-based token mixer module) هي المسؤولة بشكل رئيسي عن كفاءتها. ومع ذلك، تُظهر الدراسات الحديثة أن وحدة الانتباه في نماذج التحويل يمكن استبدالها بدوال MLP المكانية (spatial MLPs) دون أن تنخفض الأداء بشكل ملحوظ. استنادًا إلى هذه الملاحظة، نفترض أن البنية العامة لنماذج التحويل، بدلًا من وحدة معالجة الرموز المحددة، هي العامل الأهم في أداء النموذج. لاختبار هذا الافتراض، قمنا بشكل متعمد باستبدال وحدة الانتباه في نماذج التحويل بوحدة بسيطة جدًا لجمع البيانات المكانية (spatial pooling operator) تُجري فقط معالجة أساسية للرموز. بشكل مفاجئ، لاحظنا أن النموذج الناتج، المسمى بـ PoolFormer، يحقق أداءً تنافسيًا في عدة مهام للرؤية الحاسوبية. على سبيل المثال، على مجموعة بيانات ImageNet-1K، حقق PoolFormer دقة أعلى بنسبة 82.1% في التصنيف الأولي (top-1 accuracy)، متفوقًا على النماذج المُحسَّنة جيدًا من نوع Vision Transformer وMLP-مشابهة مثل DeiT-B وResMLP-B24 بنسبة 0.3% و1.1% على التوالي، مع استخدام 35% و52% من عدد المعاملات (parameters) أقل، و50% و62% من عدد العمليات الحسابية المطلوبة (MACs) أقل. تُثبت فعالية PoolFormer صحة افتراضنا، مما يدفعنا إلى إدخان مفهوم "MetaFormer"، وهو معمّل معماري عام مستخلص من نماذج التحويل دون تحديد وحدة معالجة الرموز. بناءً على التجارب الواسعة، نرى أن MetaFormer هو العامل المحوري وراء تحقيق نتائج متفوقة في النماذج الحديثة القائمة على التحويل وMLP في مهام الرؤية الحاسوبية. تدعو هذه الدراسة إلى مزيد من الأبحاث المستقبلية التي تركز على تحسين MetaFormer بدلًا من التركيز على وحدات معالجة الرموز. بالإضافة إلى ذلك، يمكن لنموذج PoolFormer المقترح أن يُستخدم كنقطة بداية لتصميم هياكل مستقبلية لـ MetaFormer. يمكن الوصول إلى الكود من خلال الرابط: https://github.com/sail-sg/poolformer.