عدّ الحشود من صورة واحدة من خلال شبكة عصبية متعددة الأعمدة متعددة التلافيف

تهدف هذه الورقة إلى تطوير طريقة قادرة على تقدير عدد الحشود بدقة من صورة فردية، بغض النظر عن كثافة الحشود أو الزاوية المرئية المُستخدمة. ولتحقيق هذا الهدف، قمنا بطرح بنية شبكة عصبية تلافيفية متعددة الأعمدة (MCNN) بسيطة ولكنها فعّالة، تُستخدم لتحويل الصورة إلى خريطة كثافة الحشود. تسمح MCNN المقترحة للصورة المدخلة بأن تكون ذات حجم أو دقة غير محددة مسبقًا. وباستخدام مرشحات ذات مجال استقبال (receptive fields) مختلف الأحجام، تصبح الميزات التي تتعلمها كل شبكة عصبية أعمدة (column CNN) قادرة على التكيف مع التغيرات في حجم الأشخاص أو الرؤوس الناتجة عن التأثيرات البصرية أو تغير دقة الصورة. علاوةً على ذلك، يتم حساب خريطة الكثافة الحقيقية بدقة باستخدام كيرنل (kernel) تعتمد على الهندسة، دون الحاجة إلى معرفة خريطة الزاوية البصرية للصورة المدخلة. وبما أن المجموعات الموجودة حاليًا من بيانات تعداد الحشود لا تغطي بشكل كافٍ جميع الحالات الصعبة التي تم اعتمادها في هذا العمل، فقد قمنا بجمع وتسمية مجموعة بيانات جديدة كبيرة تضم 1198 صورة مع ما يقارب 330,000 رأس مُعلّم. وتم إجراء تجارب واسعة على هذه المجموعة الجديدة الصعبة، فضلًا عن جميع المجموعات المتاحة حاليًا، للتحقق من فعالية النموذج والطريقة المقترحة. وبشكل خاص، أظهرت النتائج أن الطريقة المقترحة، باستخدام نموذج MCNN البسيط، تتفوق على جميع الطرق الموجودة حاليًا. كما أظهرت التجارب أن النموذج، بمجرد تدريبه على مجموعة بيانات واحدة، يمكن نقله بسهولة إلى مجموعة بيانات جديدة.