تحسين الميزات المحلية من خلال معلومات مكانية ذات صلة باستخدام محول الرؤية لعدّ الحشود

أظهرت نماذج Vision Transformer (ViT) المُطوّرة أداءً متقدماً جداً في العديد من معايير الرؤية الحاسوبية، بما في ذلك عدّ الحشود. وعلى الرغم من التقدّم الكبير الذي أظهرته النماذج القائمة على Transformer في مهام عدّ الحشود، إلا أن الطرق الحالية تواجه بعض القيود. فالمُدمَجات العالمية المستخرجة من نماذج ViT لا تتضمن الميزات المحلية الدقيقة، مما يجعلها عرضة للخطأ في المشاهد المزدحمة التي تتميز بمختلف أحجام البشر وكثافاتهم. في هذا البحث، نقترح نموذج LoViTCrowd، بناءً على الحجة القائلة بأن: الميزات المحلية التي تحتوي على معلومات مكانيّة من المناطق ذات الصلة، عبر آلية الانتباه في ViT، يمكن أن تقلّل بشكل فعّال من أخطاء عدّ الحشود. ولتحقيق ذلك، نقسّم كل صورة إلى شبكة من الخلايا. وبأخذ مربعات مكوّنة من 3×3 خلايا، حيث تُحتوي على الأجزاء الرئيسية للجسم البشري، فإن الخلايا المحيطة توفر معلومات مفيدة لتقدير الحشود. نُعدّل ViT لكل مربع بحيث يستخدم آلية الانتباه عبر الخلايا الـ 3×3 لعدّ عدد الأشخاص في الخلية المركزية. ويتم الحصول على عدد الأشخاص في الصورة من خلال جمع عدد الأشخاص في الخلايا غير المتداخلة. أظهرت التجارب الواسعة على أربع مجموعات بيانات عامة تمثّل المشاهد النادرة والكثيفة، وهي Mall وShanghaiTech Part A وShanghaiTech Part B وUCF-QNRF، أداءً متفوّقاً على المستوى العالمي لطرق أخرى. ومقارنةً بـ TransCrowd، تمكّن LoViTCrowd من تقليل متوسّط أخطاء الجذر التربيعي للمسافة (RMSE) بنسبة 14.2%، وأخطاء القيمة المطلقة المتوسطة (MAE) بنسبة 9.7%. يمكن الوصول إلى المصدر من خلال الرابط: https://github.com/nguyen1312/LoViTCrowd