Semi-DETR: الكشف عن الكائنات شبه المُدرَّب باستخدام نماذج التحويل المُصممة للكشف

نحلل الإطار القائم على DETR في كشف الكائنات شبه المراقب (SSOD)، ونلاحظ أن (1) استراتيجية التعيين واحد إلى واحد تُنتج تعيينات خاطئة عندما تكون صندوق الحدود المُعطى كمُعطى افتراضي غير دقيق، مما يؤدي إلى ضعف كفاءة التدريب؛ (2) لا تمتلك كاشفات DETR تطابقًا محددًا بين الاستعلام المُدخل وناتج التنبؤ الخاص به، مما يعيق تطبيق الت régularization القائم على التماثل الذي يُستخدم على نطاق واسع في الطرق الحديثة لـ SSOD. نقدم "Semi-DETR"، أول كاشف كائنات شبه مراقب مبني على التحويل (Transformer) ومتعدد المراحل ومتصل بشكل مباشر (end-to-end)، لمعالجة هذه المشكلات. وبشكل خاص، نقترح استراتيجية تعيين هجينة على مراحل (Stage-wise Hybrid Matching) التي تدمج بين استراتيجيتي التعيين واحد إلى كثير وواحد إلى واحد، بهدف تحسين كفاءة التدريب في المرحلة الأولى، وبالتالي توفير تسميات افتراضية عالية الجودة لتدريب المرحلة الثانية. علاوةً على ذلك، نُقدّم طريقة "اتساق الاستعلام عبر المنظورات" (Crossview Query Consistency) لتعلم التماثل في السمات الدلالية للاستعلامات الخاصة بالكائنات من منظورين مختلفين، مع تجنّب الحاجة إلى إيجاد تطابق محدد بين الاستعلامات. بالإضافة إلى ذلك، نقترح وحدة "استخراج التسميات الافتراضية القائمة على التكلفة" (Cost-based Pseudo Label Mining) لاستخراج صناديق افتراضية إضافية بشكل ديناميكي بناءً على تكلفة التعيين الخاصة بصناديق الحدود الافتراضية، وذلك لدعم تدريب التماثل. أظهرت التجارب الواسعة على جميع إعدادات SSOD في مجموعتي بيانات التقييم COCO وPascal VOC أن طريقة Semi-DETR تتفوق على جميع الطرق المتطورة حاليًا بفارق واضح. يمكن الاطلاع على نسخة كود PaddlePaddle من المشروع عبر الرابط: https://github.com/PaddlePaddle/PaddleDetection/tree/develop/configs/semi_det/semi_detr.