تحديد، حجم وعد: حل مشكلة تحديد الأشخاص بدقة في الحشود الكثيفة عبر الكشف

نقدم إطارًا للكشف عن الحشود الكثيفة ونحذف الحاجة إلى النموذج السائد للانحدار الكثافة. تتنبأ نماذج العد التقليدية بكثافة الحشد في الصورة بدلاً من كشف كل شخص. بشكل عام، تفشل هذه الطرق الانحدارية في تحديد مواقع الأشخاص بدقة كافية لمعظم التطبيقات غير العد. لذلك، نعتمد على هندسة تقوم بتحديد موقع كل شخص في الحشد، وتقيس الرؤوس المكتشفة باستخدام مربعات الحدود ثم تعدّها. بالمقارنة مع أنظمة الكشف عن الأشياء أو الوجوه العادية، هناك بعض التحديات الفريدة التي تواجه تصميم مثل هذا نظام الكشف. بعض هذه التحديات هي نتيجة مباشرة للتنوع الكبير في الحشود الكثيفة بالإضافة إلى الحاجة إلى التنبؤ بمربعات متصلة. نحل هذه المشكلات ونطور نموذجنا LSC-CNN، الذي يمكنه اكتشاف رؤوس الأشخاص بشكل موثوق به عبر حشود من النادرة إلى الكثيفة. يستخدم LSC-CNN هندسة متعددة الأعمدة مع معالجة رد فعل من أعلى إلى أسفل لحل مشكلة تحديد الأشخاص بشكل أفضل وإنتاج توقعات مكررة بدقة في عدة حلقات دقة. وفي ما يثير الاهتمام، يتطلب النظام التدريبي المقترح فقط تعليمات نقاطية للرؤوس (point head annotation)، ولكنه يمكنه تقدير المعلومات الحجمية التقريبية للرؤوس. نوضح أن LSC-CNN ليس فقط يتميز بتحديد موقع أفضل من الانحدارات الكثافة الموجودة فحسب، بل يتفوق أيضًا في العد. رمز البرمجيات لنظامنا متاح على الرابط: https://github.com/val-iisc/lsc-cnn.