Command Palette
Search for a command to run...
Anchor DETR: تصميم الاستعلام للكشف عن الكائنات القائم على Transformer
Anchor DETR: تصميم الاستعلام للكشف عن الكائنات القائم على Transformer
Yingming Wang Xiangyu Zhang Tong Yang Jian Sun
الملخص
في هذه الورقة، نقترح تصميمًا جديدًا للاستعلام في كاشفات الكائنات القائمة على المحولات (Transformer-based). في الكاشفات السابقة القائمة على المحولات، كانت استعلامات الكائنات عبارة عن مجموعة من التضمينات المُدرَّبة. ومع ذلك، لا تمتلك كل تضمينة مُدرَّبة معنى فيزيائيًا واضحًا، ولا يمكننا تفسير أين ستُركّز. كما يصعب تحسينها، لأن كل استعلام كائن لا يمتلك نمطًا محددًا في النقطة المُتنبّأ بها. بعبارة أخرى، لا يركّز كل استعلام كائن على منطقة محددة. لحل هذه المشكلات، يعتمد تصميم الاستعلام لدينا على نقاط المرجع (anchor points)، وهي مُستخدمة على نطاق واسع في الكاشفات القائمة على الشبكات العصبية التلافيفية (CNN-based). وبذلك، يركّز كل استعلام كائن على الكائنات القريبة من نقطة المرجع المقابلة. علاوةً على ذلك، يمكن لتصميم الاستعلام لدينا التنبؤ بعدة كائنات في موقع واحد، مما يحل صعوبة "منطقة واحدة، كائنات متعددة". بالإضافة إلى ذلك، قمنا بتصميم نسخة مُعدّلة من الانتباه (attention variant)، التي تقلل من تكلفة الذاكرة مع تحقيق أداء مماثل أو أفضل من الانتباه القياسي في نموذج DETR. وبفضل تصميم الاستعلام والنسخة المُعدّلة من الانتباه، تمكّن الكاشف المقترح، الذي أطلقنا عليه اسم Anchor DETR، من تحقيق أداء أفضل وتشغيل أسرع من نموذج DETR، مع استخدام عدد تدريب يقل بعشرة أضعاف من الدورات التدريبية. على سبيل المثال، حقق 44.2 نقطة AP بسرعة 19 إطارًا في الثانية على مجموعة بيانات MSCOCO عند استخدام ميزة ResNet50-DC5 وتدريبه لـ 50 دورة. أظهرت التجارب الواسعة على معيار MSCOCO فعالية الأساليب المقترحة. يمكن الوصول إلى الشفرة المصدرية عبر الرابط: \url{https://github.com/megvii-research/AnchorDETR}.