منذ 11 أيام

الشبكات العصبية التلافيفية المستندة إلى المُشفِّر-المُفكِّك مع وحدات مُدركة للقياسات المتعددة لعدّ الحشود

Pongpisit Thanasutives, Ken-ichi Fukui, Masayuki Numao, Boonserm Kijsirikul

الملخص

في هذه الورقة، نقترح نموذجين مُعدّلين من الشبكات العصبية تعتمدان على الشبكات ذات المسار المزدوج ذات الدمج متعدد المقاييس (SFANet) وشبكة SegNet لتحقيق عدد دقيق وفعال للحشود. مستوحاة من بنية SFANet، يُسمّى النموذج الأول M-SFANet، ويتم تزويده بوحدة تجميع الترسيب المكاني بالاتساع (ASPP) ووحدة الوعي بالمحتوى (CAN). يتم تعزيز المُشفّر في M-SFANet من خلال ASPP التي تحتوي على طبقات تلافيفية متعددة بالاتساع (atrous convolutional layers) تعمل بالتوازي ب معدلات عينة مختلفة، مما يمكّن من استخلاص ميزات متعددة المقاييس للجسم المستهدف ودمج سياق أوسع. ولمعالجة التغيرات في الحجم داخل الصورة المدخلة بشكل أكثر فعالية، نستخدم وحدة CAN التي تقوم بتشفير معايير السياق بشكل تكيفي. يؤدي هذا التجميع إلى نموذج فعّال لحساب الحشود في المشاهد الكثيفة والخفيفة على حد سواء. وباستناد إلى بنية مُفكّك SFANet، يحتوي مُفكّك M-SFANet على مسارين مزدوجين لإنشاء خريطة الكثافة وخرائط الانتباه. أما النموذج الثاني فيُسمّى M-SegNet، وهو ناتج عن استبدال عملية التكبير الخطي (bilinear upsampling) في SFANet بعملية التكبير القصوى (max unpooling) التي تُستخدم في SegNet. يؤدي هذا التغيير إلى نموذج أسرع مع أداء مُنافس في الحساب. تم تصميم M-SegNet لتطبيقات المراقبة عالية السرعة، ولا يحتوي على وحدة إضافية تُراعي المقاييس المختلفة، لتفادي زيادة التعقيد. يعتمد كلا النموذجين على هيكل مُشفّر-مُفكّك، ويتم تدريبهما بشكل مباشر (end-to-end). أجرينا تجارب واسعة على خمسة مجموعات بيانات لحساب الحشود، بالإضافة إلى مجموعة بيانات لحساب المركبات، وأظهرت النتائج أن هذه التعديلات تُنتج خوارزميات تُحسّن الطرق الحالية المتطورة في حساب الحشود. يمكن الوصول إلى الكود عبر الرابط: https://github.com/Pongpisit-Thanasutives/Variations-of-SFANet-for-Crowd-Counting.