مُدرِّسٌ فعّال: الكشف عن الكائنات شبه المُراقَب لـ YOLOv5

تمّ تحقيق نجاح كبير في كشف الأجسام شبه المُعلَّمة (SSOD) من خلال تحسين أداء كلاً من مُحددات سلسلة R-CNN والمُحددات التي لا تعتمد على المُعلّمات (anchor-free). ومع ذلك، تفتقر مُحددات الطور الواحدة القائمة على المُعلّمات إلى البنية اللازمة لإنشاء علامات افتراضية عالية الجودة أو مرنة، ما يؤدي إلى مشاكل جسيمة في التناقض داخل إطار SSOD. في هذه الورقة، نقترح إطارًا فعّالًا يُسمى Efficient Teacher، مُصممًا لتوفير تدريب مُ-scalable وفعّال للكشف عن الأجسام شبه المُعلَّمة من الطور الواحد القائم على المُعلّمات، ويتألف من ثلاث مكونات رئيسية: مُحدد كثيف (Dense Detector)، ومرقّم علامات افتراضية (Pseudo Label Assigner)، وملبّس الدورة (Epoch Adaptor). يُشكّل مُحدد كثيف نموذجًا أساسيًا (baseline) يُعدّل RetinaNet بإدخال تقنيات عينة كثيفة مستوحاة من YOLOv5. ويقدّم إطار Efficient Teacher آلية جديدة لتعيين العلامات الافتراضية، تُسمى Pseudo Label Assigner، والتي تُستخدم بشكل أكثر دقة في استغلال العلامات الافتراضية الناتجة عن مُحدد كثيف. أما Epoch Adaptor، فهو أسلوب يُمكّن من تحقيق جدول تدريب شبه مُعلَّم من طور واحد بشكل مستقر وفعال، من خلال دعم التعلم التبادلي بين الطالب والمرشد. وتُقلّل Pseudo Label Assigner من حدوث التحيّز الناتج عن كمّ كبير من العلامات الافتراضية منخفضة الجودة التي قد تؤثر سلبًا على مُحدد كثيف أثناء آلية التعلم التبادلي، في حين يُستخدم Epoch Adaptor لتمكين مُحدد كثيف من تعلّم ميزات متسقة على نطاق واسع من خلال تكيّف المجال والتوزيع، مما يجعل التدريب مستقلًا عن نسبة البيانات المُعلَّمة. تُظهر تجاربنا أن إطار Efficient Teacher يحقق نتائج متفوّقة على مجموعات البيانات VOC وCOCO-standard وCOCO-additional، باستخدام عددًا أقل من العمليات الحسابية (FLOPs) مقارنة بالطرق السابقة. إلى حد علمنا، فإن هذه هي المحاولة الأولى لتطبيق كشف الأجسام شبه المُعلَّمة على YOLOv5. الكود متوفر هنا: https://github.com/AlibabaResearch/efficientteacher