R-CNN المُدرك للعدد والتشابه للكشف عن المشاة

تُعتمد الطرق الحديثة للكشف عن المشاة عادةً على مراقبة إضافية، مثل العلامات المرجعية المرئية (bounding-box) لمعالجة حالات التداخل الشديد. نقترح منهجًا يستفيد من معلومات عدد المشاة وتشابه المقترحات ضمن إطار كشف المشاة ذي المرحلة المزدوجة. ويُستمد كلا من عدد المشاة وتشابه المقترحات من العلامات الكاملة للجسم التي تُستخدم بشكل شائع في تدريب نماذج كشف المشاة. نقدّم دالة خسارة موزونة حسب العدد (count-weighted detection loss) التي تُعطي أوزانًا أعلى للأخطاء الناتجة عن الكشف عند المشاة المتشابكة بشكل كبير. وتُستخدم دالة الخسارة المقترحة في كلا المرحلتين للكاشف ذي المرحلتين المزدوجتين. كما نُقدّم فرعًا جديدًا يُسمى "العدد وتشابه" داخل إطار الكشف ذي المرحلتين، والذي يتنبأ بعدد المشاة وتشابه المقترحات. وأخيرًا، نُقدّم استراتيجية NMS مُستندة إلى العدد وتشابه المقترحات لتحديد المقترحات المميزة. لا يتطلب منهجنا أي معلومات عن الأجزاء أو علامات المرجعية المرئية. أجرينا تجارب على مجموعتي بيانات CityPersons وCrowdHuman. وقد حقق منهجنا أداءً جديدًا على مستوى الأفضل في كلا المجموعتين. وبالإضافة إلى ذلك، حقق تحسنًا مطلقًا بنسبة 2.4% مقارنةً بأفضل أداء مُسجل حتى الآن، من حيث معدل الفشل المتوسط اللوغاريتمي، على مجموعة CityPersons التي تعاني من تداخل شديد (extbf{HO}) في مجموعة الاختبار. وأخيرًا، نُظهر مدى قابلية تطبيق منهجنا على مشكلة تجزئة المُستخدِمين (human instance segmentation). يمكن الوصول إلى الكود والنماذج عبر: https://github.com/Leotju/CaSe .