وجبة مجانية من ViT: التحويلة متعددة المقياس مع انتباه تكيفي لدمج المعلومات للتمييز البصري الدقيق

تلعب عملية التعلّم على تمثيل دقيق للأجزاء الموضوعية دورًا محوريًا في مجال التعرف البصري الدقيق (FGVR). حققت نموذج التحويل البصري (ViT) نتائج واعدة في مجال الرؤية الحاسوبية بفضل آلية الانتباه الخاصة به. ومع ذلك، وبسبب الحجم الثابت للقطع (patches) في ViT، فإن "الرمز الفئة" (class token) في الطبقات العميقة يركز على مجال الاستقبال الشامل (global receptive field) ولا يمكنه إنتاج ميزات متعددة الحجم (multi-granularity) المطلوبة للتعرف الدقيق. وللتغلب على هذه النقطة الضعيفة في ViT، وتمكين التقاط انتباه المناطق دون الحاجة إلى علامات مربعات (box annotations)، نقترح طريقة جديدة تُسمى "محول الانتباه التكيفي متعدد المقاييس (AFTrans)". يعتمد نموذج جمع الانتباه المُختار (SACM) في منهجنا على أوزان الانتباه في ViT، ويقوم بتصفية هذه الأوزان بشكل تكيفي لتعكس الأهمية النسبية لكل قطعة مدخلة. ويتم تدريب النموذج على خط أنابيب متعددة المقاييس (مدى عالمي ومحلي) تحت إشراف مشغل تشفير يشارك الأوزان، ما يمكّنه من التدريب بشكل مباشر ونهائي (end-to-end). وأظهرت التجارب الشاملة أن AFTrans تحقق أداءً رائدًا (SOTA) على ثلاث معايير منشورة للتعرف الدقيق: CUB-200-2011، وStanford Dogs، وiNat2017.