Command Palette
Search for a command to run...
استكشاف هيكل النموذج البسيط لـ Transformer في الكشف عن الأشياء
استكشاف هيكل النموذج البسيط لـ Transformer في الكشف عن الأشياء
Yanghao Li Hanzi Mao Ross Girshick† Kaiming He‡
الملخص
نستكشف الشبكة المتغيرة البصرية (Vision Transformer - ViT) البسيطة وغير الهرمية كشبكة أساسية للكشف عن الأشياء. يتيح هذا التصميم تحسين هندسة ViT الأصلية للكشف عن الأشياء دون الحاجة إلى إعادة تصميم هيكل خلفي هرمي للتدريب المسبق. من خلال إجراء تعديلات بسيطة للتحسين، يمكن لمكتشفنا ذو الهيكل الخلفي البسيط تحقيق نتائج تنافسية. بشكل مفاجئ، نلاحظ: (i) أنه يكفي بناء هرم ميزات بسيط من خريطة ميزات ذات نطاق واحد (بدون التصميم الشائع FPN) و (ii) أنه يكفي استخدام انتباه النافذة (بدون التحويل) مع عدد قليل جداً من كتل الانتشار بين النوافذ. باستخدام شبكات ViT البسيطة كخلفيات تم تدريبها كترميزات ذاتية مخفية (Masked Autoencoders - MAE)، يمكن لمكتشفنا الذي أطلق عليه اسم ViTDet المنافسة مع الأساليب الرائدة السابقة التي كانت جميعها تعتمد على الهياكل الخلفية الهرمية، حيث يصل إلى دقة AP_box تبلغ 61.3٪ على مجموعة بيانات COCO باستخدام فقط تدريب ImageNet-1K. نأمل أن يجذب دراستنا الانتباه إلى البحث حول مكتشفات الأشياء ذات الهيكل الخلفي البسيط. رمز ViTDet متاح في Detectron2.