استكشاف هيكل النموذج البسيط لـ Transformer في الكشف عن الأشياء

نستكشف الشبكة المتغيرة البصرية (Vision Transformer - ViT) البسيطة وغير الهرمية كشبكة أساسية للكشف عن الأشياء. يتيح هذا التصميم تحسين هندسة ViT الأصلية للكشف عن الأشياء دون الحاجة إلى إعادة تصميم هيكل خلفي هرمي للتدريب المسبق. من خلال إجراء تعديلات بسيطة للتحسين، يمكن لمكتشفنا ذو الهيكل الخلفي البسيط تحقيق نتائج تنافسية. بشكل مفاجئ، نلاحظ: (i) أنه يكفي بناء هرم ميزات بسيط من خريطة ميزات ذات نطاق واحد (بدون التصميم الشائع FPN) و (ii) أنه يكفي استخدام انتباه النافذة (بدون التحويل) مع عدد قليل جداً من كتل الانتشار بين النوافذ. باستخدام شبكات ViT البسيطة كخلفيات تم تدريبها كترميزات ذاتية مخفية (Masked Autoencoders - MAE)، يمكن لمكتشفنا الذي أطلق عليه اسم ViTDet المنافسة مع الأساليب الرائدة السابقة التي كانت جميعها تعتمد على الهياكل الخلفية الهرمية، حيث يصل إلى دقة AP_box تبلغ 61.3٪ على مجموعة بيانات COCO باستخدام فقط تدريب ImageNet-1K. نأمل أن يجذب دراستنا الانتباه إلى البحث حول مكتشفات الأشياء ذات الهيكل الخلفي البسيط. رمز ViTDet متاح في Detectron2.