PS-RCNN: اكتشاف الكائنات البشرية الثانوية في الزحام من خلال 억اد الكائن الأساسي

كشف الأجسام البشرية في المشاهد المزدحمة للغاية يُعد مشكلة صعبة. ونتيجة لذلك، توجد سببان رئيسيان لهذا التحدي: 1) تُعد الإشارات البصرية الضعيفة للكائنات التي تكون مُحاطة بشكل كبير (مُحَجَّبة جزئيًا أو كليًا) غير قادرة على توفير معلومات كافية للكشف الدقيق؛ 2) تُصبح الكائنات المُحَجَّبة بشكل كبير أكثر عرضة للاستبعاد بواسطة خوارزمية تقليل الحد الأقصى غير الأقصى (NMS). لمعالجة هذين المشكلين، نقدّم نسخة معدلة من الكاشفات ذات المرحلة الثانية تُسمى PS-RCNN. تبدأ PS-RCNN بكشف الكائنات التي تكون مُحَجَّبة بشكل طفيف أو غير مُحَجَّبة على الإطلاق باستخدام وحدة R-CNN (تسمى P-RCNN)، ثم تقوم بتقليل الكائنات المكتشفة باستخدام أقنعة ذات شكل بشري، بهدف تمييز السمات الخاصة بالكائنات المُحَجَّبة بشدة. بعد ذلك، تستخدم PS-RCNN وحدة R-CNN أخرى مخصصة لكشف الأجسام البشرية المُحَجَّبة بشدة (تسمى S-RCNN) للكشف عن الكائنات المتبقية التي فاتت كشفها بواسطة P-RCNN. ويتم الحصول على النتائج النهائية من خلال دمج مخرجات هاتين الوحدتين من R-CNN. علاوةً على ذلك، نقدّم وحدة High Resolution RoI Align (HRRA) للحفاظ على أقصى قدر ممكن من السمات الدقيقة الخاصة بالأجزاء الظاهرة من الأجسام البشرية المُحَجَّبة بشدة. أظهرت PS-RCNN تحسينًا ملحوظًا في معدل الاستجابة (recall) ودقة المتوسط (AP) بنسبة 4.49% و2.92% على مجموعة بيانات CrowdHuman بالمقارنة مع النموذج الأساسي. كما تم تحقيق تحسينات مماثلة على مجموعة بيانات Widerperson باستخدام PS-RCNN.