CSRNet: شبكات العصبي المتشعبة للتفهم المشاهد ذات الازدحام الشديد

نقترح شبكة للاعتراف بالمشاهد المزدحمة تُسمى CSRNet لتوفير طريقة تعتمد على البيانات وتعلم الآلة العميقة التي يمكنها فهم المشاهد المزدحمة للغاية وإجراء تقديرات دقيقة للعد وكذلك تقديم خرائط كثافة عالية الجودة. تتكون الشبكة المقترحة CSRNet من مكونين رئيسيين: شبكة عصبية انتقالية (CNN) في الجبهة الأمامية لاستخراج الخصائص ثنائية الأبعاد، وشبكة عصبية انتقالية موسعة في الجزء الخلفي، والتي تستخدم نواة موسعة لتوفير حقول استقبال أكبر واستبدال عمليات التجميع. تعتبر CSRNet نموذجًا سهل التدريب بفضل هيكلها الانتقالي النقي. نقوم بتجربة CSRNet على أربع قواعد بيانات (مجموعة بيانات ShanghaiTech، ومجموعة بيانات UCF_CC_50، ومجموعة بيانات WorldEXPO'10، ومجموعة بيانات UCSD) ونقدم أداءً يتفوق على أفضل ما تم تحقيقه حتى الآن. في مجموعة بيانات ShanghaiTech Part_B، تحقق CSRNet خطأ متوسط مطلق (MAE) أقل بنسبة 47.3% من الطريقة السابقة الأفضل. نوسع التطبيقات المستهدفة لعد الأجسام الأخرى، مثل السيارات في مجموعة بيانات TRANCOS. تظهر النتائج أن CSRNet تحسن جودة الإخراج بشكل كبير مع خطأ متوسط مطلق (MAE) أقل بنسبة 15.4% من النهج السابق الأفضل.