منذ 8 أشهر

الملخص

في هذه الورقة، نقترح تصميمًا جديدًا للاستعلام في كاشفات الكائنات القائمة على المحولات (Transformer-based). في الكاشفات السابقة القائمة على المحولات، كانت استعلامات الكائنات عبارة عن مجموعة من التضمينات المُدرَّبة. ومع ذلك، لا تمتلك كل تضمينة مُدرَّبة معنى فيزيائيًا واضحًا، ولا يمكننا تفسير أين ستُركّز. كما يصعب تحسينها، لأن كل استعلام كائن لا يمتلك نمطًا محددًا في النقطة المُتنبّأ بها. بعبارة أخرى، لا يركّز كل استعلام كائن على منطقة محددة. لحل هذه المشكلات، يعتمد تصميم الاستعلام لدينا على نقاط المرجع (anchor points)، وهي مُستخدمة على نطاق واسع في الكاشفات القائمة على الشبكات العصبية التلافيفية (CNN-based). وبذلك، يركّز كل استعلام كائن على الكائنات القريبة من نقطة المرجع المقابلة. علاوةً على ذلك، يمكن لتصميم الاستعلام لدينا التنبؤ بعدة كائنات في موقع واحد، مما يحل صعوبة "منطقة واحدة، كائنات متعددة". بالإضافة إلى ذلك، قمنا بتصميم نسخة مُعدّلة من الانتباه (attention variant)، التي تقلل من تكلفة الذاكرة مع تحقيق أداء مماثل أو أفضل من الانتباه القياسي في نموذج DETR. وبفضل تصميم الاستعلام والنسخة المُعدّلة من الانتباه، تمكّن الكاشف المقترح، الذي أطلقنا عليه اسم Anchor DETR، من تحقيق أداء أفضل وتشغيل أسرع من نموذج DETR، مع استخدام عدد تدريب يقل بعشرة أضعاف من الدورات التدريبية. على سبيل المثال، حقق 44.2 نقطة AP بسرعة 19 إطارًا في الثانية على مجموعة بيانات MSCOCO عند استخدام ميزة ResNet50-DC5 وتدريبه لـ 50 دورة. أظهرت التجارب الواسعة على معيار MSCOCO فعالية الأساليب المقترحة. يمكن الوصول إلى الشفرة المصدرية عبر الرابط: \url{https://github.com/megvii-research/AnchorDETR}.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار