détéction d'objets semi-supervisée bout-en-bout avec enseignant doux

تقدم هذه الورقة منهجًا متكاملًا (end-to-end) للكشف عن الكائنات شبه المُعلَّم، على عكس الطرق متعددة المراحل المعقدة السابقة. يُحسّن التدريب المتكامل تدريجيًا جودة التسميات الوهمية (pseudo labels) خلال مرحلة التعلم التدريجي (curriculum)، وبالمقابل تُسهم هذه التسميات الوهمية الأكثر دقة تدريجيًا في تحسين تدريب كشف الكائنات. كما نقترح ضمن هذا الإطار تقنيتين بسيطتين لكنهما فعّالتين: آلية "المُعلّم الناعم" (soft teacher)، حيث يتم وزن خسارة التصنيف لكل مربع حدودي غير مُعلَّم بناءً على الدرجة التصنيفية التي يُنتجها شبكة المُعلّم؛ وتقنية "الاهتزاز المكاني للمربعات" (box jittering) لاختيار مربعات وهمية موثوقة لتدريب الانحدار على المربعات. على معيار COCO، تتفوّق الطرق المقترحة على الطرق السابقة بفارق كبير تحت نسب تسمية مختلفة، مثل 1% و5% و10%. علاوةً على ذلك، تُظهر الطرق المقترحة أداءً جيدًا حتى عندما تكون كمية البيانات المُعلَّمة كبيرة نسبيًا. على سبيل المثال، يمكنها تحسين كاشف يحقق 40.9 mAP عند تدريبه باستخدام مجموعة التدريب الكاملة لـ COCO بزيادة قدرها +3.6 mAP، ليصل إلى 44.5 mAP، وذلك بفضل استخدام 123 ألف صورة غير مُعلَّمة من COCO. وعلى الكاشف الرائد القائم على مُعمّل Swin Transformer (الذي يحقق 58.9 mAP على مجموعة test-dev)، لا يزال بإمكانها تحسين دقة الكشف بـ +1.5 mAP، ليصل إلى 60.4 mAP، وتحسين دقة التجزئة الظاهرة (instance segmentation) بـ +1.2 mAP، لتصل إلى 52.4 mAP. وبإدراج نموذج مُدرّب مسبقًا على Object365، تصل دقة الكشف إلى 61.3 mAP، ودقة التجزئة الظاهرة إلى 53.0 mAP، مما يُسجّل أداءً جديدًا يُعدّ الأفضل في المجال حتى تاريخه.