الكشف عن الكائنات من الطرف إلى الطرف باستخدام المحولات

نقدّم طريقة جديدة تُعدّ الكشف عن الكائنات مشكلة تنبؤ مباشرة بمجموعة. تُبسّط هذه الطريقة عملية الكشف، وتفيد بشكل فعّال في التخلص من الحاجة إلى العديد من المكونات المصممة يدويًا، مثل إجراءات إزالة التداخل غير الأقصى (non-maximum suppression) أو توليد المُعلّقات (anchors) التي تُشفّر معرفتنا المسبقة حول المهمة بشكل صريح. تتكوّن المكونات الأساسية للإطار الجديد، المسمّى بـ DEtection TRansformer أو DETR، من خسارة عالمية قائمة على المجموعة تُجبر النتائج على أن تكون فريدة من خلال عملية المطابقة الثنائية، بالإضافة إلى بنية مشفرة-فكّر مبنية على الترانسفورمر. وباستخدام مجموعة ثابتة صغيرة من استفسارات الكائنات التي تم تعلّمها، يُحلّل DETR العلاقات بين الكائنات والسياق العام للصورة، ويُخرِج بشكل متوازٍ المجموعة النهائية للتنبؤات مباشرة. يتميّز النموذج الجديد ببساطة مفاهيمية، ولا يتطلب مكتبة متخصّصة، على عكس العديد من كاشفات الكائنات الحديثة الأخرى. يُظهر DETR دقة وفعالية في الأداء الزمني مُماثلة لنموذج Faster RCNN المُثبت جيدًا والمضبوط بشكل عالٍ على مجموعة بيانات الكشف عن الكائنات الشهيرة COCO. علاوةً على ذلك، يمكن تعميم DETR بسهولة لإنتاج تقسيم بانوبيتيك (panoptic segmentation) بطريقة موحّدة. ونُظهر أنّه يتفوّق بشكل كبير على النماذج التنافسية الأخرى. تُتاح أكواد التدريب والنماذج المُدرّبة مسبقًا عبر الرابط: https://github.com/facebookresearch/detr.