تقليم انتباهات الذات إلى طبقات التفافية في مسار واحد

حققت نماذج Vision Transformers (ViTs) أداءً ملحوظًا في مجموعة متنوعة من مهام الرؤية الحاسوبية. ومع ذلك، فإن نمذجة الارتباطات العالمية باستخدام طبقات الانتباه الذاتي متعددة الرؤوس (MSA) تؤدي إلى مشكلتين معروفتين على نطاق واسع: استهلاك كبير للموارد الحاسوبية وعدم وجود تحيز استقرائي داخلي لنمذجة الأنماط البصرية المحلية. لحل هاتين المشكلتين، قمنا بتطوير طريقة بسيطة ولكنها فعالة تُسمى تقليم Vision Transformer بمسار واحد (SPViT)، لتضييق النماذج المدربة مسبقًا بشكل فعال وتلقائي وإضافة التحديد المناسب للأنماط المحلية.تحديدًا، اقترحنا أولًا نظامًا جديدًا لمشاركة الأوزان بين عمليات MSA والعمليات التلافيفية، مما يوفر مساحة ذات مسار واحد لترميز جميع العمليات المرشحة. بهذه الطريقة، نحول مشكلة البحث عن العمليات إلى العثور على أي مجموعة من المعلمات يجب استخدامها في كل طبقة MSA، مما يقلل بشكل كبير من تكلفة الحساب وصعوبة الأمثلة، ويمكن تهيئة نواة التلافيف بشكل جيد باستخدام المعلمات المدربة مسبقًا لـ MSA. بالاعتماد على المساحة ذات المسار الواحد، قدمنا بوابات ثنائية قابلة للتعلم لترميز اختيارات العمليات في طبقات MSA.بالطريقة نفسها، نستخدم أيضًا بوابات قابلة للتعلم لترميز نسب التوسع الدقيق في طبقات FFN. بهذه الطريقة، يقوم SPViT الخاص بنا بتحسين البوابات القابلة للتعلم لاكتشاف تلقائي من مساحة بحث ضخمة وموحدة وتعديل نسبة التقليم بين MSA وFFN بشكل مرنة لكل نموذج كثيف فردي. أجرينا تجارب واسعة النطاق على ViTs تمثيلية لإظهار أن SPViT الخاص بنا حقق أفضل مستوى جديد للتقليم على ImageNet-1k. على سبيل المثال، يمكن لـ SPViT الخاص بنا تقليم 52.0% من العمليات العددية (FLOPs) لنموذج DeiT-B والحصول على زيادة ملحوظة بنسبة 0.6% في دقة التصنيف الأولى (top-1 accuracy) في الوقت نفسه.الكود المصدر متاح على الرابط التالي:https://github.com/ziplab/SPViT.