Omni-DETR: الكشف الشامل عن الكائنات بالاعتماد على نماذج Transformers مع تدريب شامل

ننظر في مشكلة الكشف عن الكائنات المُدرَّسة بشكل شامل (omni-supervised object detection)، والتي يمكنها استخدام التسميات غير المُدرَّسة، والكاملة، والضعيفة، مثل العلامات الصورية، والعدد، والنقاط، وغيرها، للحصول على كشف عن الكائنات. ويُمكِّن هذا من خلال معمارية موحدة تُسمى Omni-DETR، التي تعتمد على التقدم الأخير في إطار العمل بين المُدرّس والطالب (student-teacher framework) والكشف عن الكائنات القائم على المحولات النهائية (end-to-end transformer-based object detection). وباستخدام هذه المعمارية الموحدة، يمكن استغلال أنواع مختلفة من التسميات الضعيفة لإنشاء تسميات افتراضية دقيقة، من خلال آلية تصفية تعتمد على التطابق الثنائي (bipartite matching)، بحيث يمكن للنموذج التعلُّم منها. وفي التجارب، حقق Omni-DETR نتائج متقدمة على مستوى الحالة الحالية (state-of-the-art) على عدة مجموعات بيانات وبيئات مختلفة. كما لاحظنا أن التسميات الضعيفة يمكن أن تساعد في تحسين أداء الكشف، وأن مزيجًا منها يمكن أن يحقق توازنًا أفضل بين تكلفة التسمية والدقة مقارنة بالتسمية الكاملة القياسية. هذه النتائج قد تحفّز على إنشاء مجموعات بيانات أكبر للكشف عن الكائنات باستخدام تسميات مختلطة. يمكن الوصول إلى الشفرة المصدرية عبر الرابط: https://github.com/amazon-research/omni-detr.