HyperAIHyperAI

Command Palette

Search for a command to run...

استكشاف هيكل النموذج البسيط لـ Transformer في الكشف عن الأشياء

Yanghao Li Hanzi Mao Ross Girshick† Kaiming He‡

الملخص

نستكشف الشبكة المتغيرة البصرية (Vision Transformer - ViT) البسيطة وغير الهرمية كشبكة أساسية للكشف عن الأشياء. يتيح هذا التصميم تحسين هندسة ViT الأصلية للكشف عن الأشياء دون الحاجة إلى إعادة تصميم هيكل خلفي هرمي للتدريب المسبق. من خلال إجراء تعديلات بسيطة للتحسين، يمكن لمكتشفنا ذو الهيكل الخلفي البسيط تحقيق نتائج تنافسية. بشكل مفاجئ، نلاحظ: (i) أنه يكفي بناء هرم ميزات بسيط من خريطة ميزات ذات نطاق واحد (بدون التصميم الشائع FPN) و (ii) أنه يكفي استخدام انتباه النافذة (بدون التحويل) مع عدد قليل جداً من كتل الانتشار بين النوافذ. باستخدام شبكات ViT البسيطة كخلفيات تم تدريبها كترميزات ذاتية مخفية (Masked Autoencoders - MAE)، يمكن لمكتشفنا الذي أطلق عليه اسم ViTDet المنافسة مع الأساليب الرائدة السابقة التي كانت جميعها تعتمد على الهياكل الخلفية الهرمية، حيث يصل إلى دقة AP_box تبلغ 61.3٪ على مجموعة بيانات COCO باستخدام فقط تدريب ImageNet-1K. نأمل أن يجذب دراستنا الانتباه إلى البحث حول مكتشفات الأشياء ذات الهيكل الخلفي البسيط. رمز ViTDet متاح في Detectron2.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp