العد الجماعي عبر شبكات الانتباه الموجهة بالتقسيم ووظيفة الخسارة التدريبية

تحليل السلوك التلقائي للزحام يعد مهمة مهمة لأنظمة النقل الذكية، حيث يمكّن من التحكم الفعّال في تدفق الحركة والتخطيط الديناميكي للمسارات وفقًا لتغيرات المشاركين في الطرق. ويشكل عدّ الزحام أحد الركائز الأساسية في تحليل السلوك التلقائي للزحام. وقد حققت الشبكات العصبية التلافيفية العميقة (CNN) تقدّمًا ملموسًا في عدّ الزحام في السنوات الأخيرة. وقد بذل الباحثون جهودًا كبيرة في تصميم هياكل متنوعة للشبكات العصبية التلافيفية، ومعظمها يستند إلى نموذج VGG16 المُدرّب مسبقًا. وبسبب قدرة التعبير المحدودة لشبكة VGG16 الأساسية، يُتّخذ عادةً تبنّي شبكة إضافية معقدة مصممة خصيصًا لتحقيق أداء جيد في العد. وعلى الرغم من أن نماذج Inception قد تفوقت على نماذج VGG في مهام تصنيف الصور، إلا أن الشبكات الحالية المبنية على وحدات Inception لا تزال تضم عددًا قليلاً من الطبقات ذات الأنواع الأساسية من وحدات Inception. ولسد هذا الفجوة، نقدم في هذه الورقة أولًا تقييمًا مبدئيًا لنموذج Inception-v3 كنموذج أساسي على مجموعات بيانات شائعة لعدّ الزحام، ونحقق أداءً مُذهلًا يُقارن أو يتفوق على معظم النماذج الحالية لعدّ الزحام. ثم نمدد حدود هذا العمل المُحَوِّل من خلال اقتراح شبكة انتباه موجهة بالتقسيم (SGANet)، التي تستخدم Inception-v3 كهيكل أساسي، ونظام خسارة جديد يعتمد على منهجية تعليمية (curriculum loss) لعدّ الزحام. ونُجري تجارب مفصلة لمقارنة أداء SGANet مع النماذج السابقة، حيث تُظهر النموذج المقترح أداءً يُعدّ من أفضل الأداء في المجال، بقيمة MAE تبلغ 57.6 و6.3 و87.6 على مجموعات بيانات ShanghaiTechA وShanghaiTechB وUCF_QNRF على التوالي.