HyperAIHyperAI
منذ 17 أيام

الأساسيات الميتافورمر للرؤية

Weihao Yu, Chenyang Si, Pan Zhou, Mi Luo, Yichen Zhou, Jiashi Feng, Shuicheng Yan, Xinchao Wang
الأساسيات الميتافورمر للرؤية
الملخص

تم اكتشاف أن معمارية MetaFormer، التي تمثل صورة مبسطة لـ Transformer، تلعب دورًا مهمًا في تحقيق أداء تنافسي. في هذه الورقة، نستكشف بشكل أعمق القدرة التي يمتلكها MetaFormer، مع تجنب التركيز على تصميم مُمزج الرموز (token mixer): نقدّم عدة نماذج أساسية ضمن إطار MetaFormer باستخدام مُمزجات بسيطة جدًا أو شائعة، ونلخّص ملاحظاتنا على النحو التالي:(1) تضمن MetaFormer حدًا سفليًا قويًا للأداء. وباستخدام التحويل الهوية (identity mapping) فقط كمُمزج للرموز، تحقق النموذج المعروف باسم IdentityFormer دقة تزيد عن 80% على مجموعة بيانات ImageNet-1K.(2) يعمل MetaFormer بشكل جيد مع أي مُمزج رموز. وحتى عند استخدام مصفوفة عشوائية كمُمزج للرموز، يحقق النموذج الناتج، المعروف بـ RandFormer، دقة تزيد عن 81%، ما يفوق أداء IdentityFormer. ويمكنك الاطمئنان إلى جودة النتائج التي يوفرها MetaFormer عند استخدام مُمزجات رموز جديدة.(3) يوفر MetaFormer بسهولة نتائج من الطراز الرائد (state-of-the-art). وباستخدام مُمزجات رموز تقليدية تعود إلى خمس سنوات مضت، فإن النماذج المستمدة من MetaFormer تفوق بالفعل أفضل النماذج المتوفرة حاليًا.(a) يتفوق ConvFormer على ConvNeXt: عند استخدام التحويلات التبادلية العميقة (depthwise separable convolutions) كمُمزج للرموز، يُنتج النموذج المعروف بـ ConvFormer، الذي يمكن اعتباره شبكة عصبية تلافيفية نقية (pure CNN)، أداءً أفضل من النموذج القوي ConvNeXt.(b) يُحدث CAFormer سجلًا جديدًا على ImageNet-1K: من خلال تطبيق التحويلات التبادلية العميقة كمُمزج رموز في المراحل السفلية، وتطبيق الانتباه الذاتي القياسي (vanilla self-attention) في المراحل العليا، يُحقّق النموذج الناتج، CAFormer، سجلًا جديدًا على ImageNet-1K، حيث يبلغ دقة 85.5% عند دقة 224×224، ضمن تدريب مراقب عادي دون استخدام بيانات خارجية أو تقنيات التعلم التجميعي (distillation). وخلال رحلتنا لاستكشاف MetaFormer، اكتشفنا أيضًا أن دالة تنشيط جديدة تُدعى StarReLU تقلّل من استهلاك العمليات الحسابية (FLOPs) الناتجة عن الدالة التنشيطية بنسبة 71% مقارنة بـ GELU، مع تحقيق أداء أفضل. نتوقع أن تُظهر StarReLU إمكانات كبيرة في النماذج المشابهة لـ MetaFormer، بالإضافة إلى الشبكات العصبية الأخرى.

الأساسيات الميتافورمر للرؤية | أحدث الأوراق البحثية | HyperAI