تعلم الوعي المكاني لتحسين عد الحشود

الهدف من عد الحشود هو تقدير عدد الأشخاص في الصور من خلال الاستفادة من التسمية الموضعية لمركز رؤوس المشاة. وقد تم تحقيق تقدم ملحوظ بفضل الانتشار الواسع للشبكات العصبية التلافيفية العميقة. تستخدم الطرق الحالية على نطاق واسع معيار المسافة الإقليدية (أي خسارة (L_2)) لتحسين النموذج، لكن هذا المعيار يمتلك عيبين رئيسيين: (1) يواجه صعوبة في تعلم الوعي المكاني (أي الموضع الخاص بالرأس) نظرًا لصعوبته في الحفاظ على التغيرات عالية التردد في خريطة الكثافة، و(2) يكون حساسًا جدًا لمختلف أنواع الضوضاء في عد الحشود، مثل ضوضاء المتوسط الصفري، وتغيرات حجم الرؤوس، والاختناقات. وعلى الرغم من أن خسارة "الحد الأقصى للتفوق على الفئات الفرعية" (MESA) قد تم اقتراحها سابقًا لمعالجة هذه المشكلات من خلال إيجاد المنطقة المستطيلة التي تكون فيها خريطة الكثافة المتنبأة لها أقصى فرق عن الحقيقة، إلا أنها لا يمكن حلها باستخدام الانحدار التدرجي، وبالتالي يصعب دمجها في إطار التعلم العميق. في هذه الورقة، نقدم معمارية جديدة تُسمى "شبكة الوعي المكاني" (SPANet) لدمج السياق المكاني في عد الحشود. ونُقدِّم خسارة جديدة تُسمى "الحد الأقصى للتفوق على البكسل" (MEP) لتحقيق ذلك من خلال إيجاد المنطقة الفرعية على مستوى البكسل ذات الفرق الكبير عن الحقيقة. ولتحقيق ذلك، نصمم خطة تعلم ضعيفة الإشراف لإنشاء مثل هذه المنطقة باستخدام بنية متعددة الفروع. يمكن دمج الإطار المُقترح في الطرق العميقة الحالية لعد الحشود، وهو قابل للتدريب من البداية إلى النهاية. وأظهرت التجارب الواسعة على أربع معايير صعبة أن طريقةنا تُحسّن بشكل كبير أداء النماذج الأساسية. وبشكل أكثر لفتًا للانتباه، تفوق طريقةنا على أحدث الطرق المُقدمة على جميع مجموعات البيانات القياسية.