شبكة عصبية تلافيفية مبدلة لعد الجموع

نقترح نموذجًا جديدًا لعد الحشود يربط مشهد حشد معين بكثافته. تحليل الحشود معقد بسبب العديد من العوامل مثل التداخل بين الأفراد نتيجة الازدحام الشديد، والتشابه الكبير في المظهر بين الأفراد وعناصر الخلفية، وتباين زوايا رؤية الكاميرا بشكل كبير. تتعامل النماذج الحالية المتقدمة مع هذه العوامل باستخدام هياكل شبكات النيورونات التلافيفية متعددة المقاييس، والشبكات المتكررة، ودمج متأخر للميزات من شبكات النيورونات التلافيفية متعددة الأعمدة ذات المجالات المستقبلة المختلفة. نقترح استخدام شبكة تلافيفية قابلة للتبديل تستفيد من تباين كثافة الحشد داخل الصورة لتحسين دقة وعد الحشد وموقعه. يتم إرسال مربعات من شبكة داخل مشهد حشد إلى شبكات النيورونات التلافيفية المستقلة بناءً على جودة التنبؤ بعد الحشد التي تم تحديدها أثناء التدريب. تصمم الشبكات التلافيفية المستقلة لتكون لديها مجالات مستقبلة مختلفة، ويتم تدريب تصنيف البديل لإرسال مربع المشهد الخاص بالحشد إلى أفضل شبكة تلافيفية مستقلة. نقوم بإجراء تجارب واسعة النطاق على جميع قواعد البيانات الرئيسية لعد الحشود ونقدم أدلة على أداء أفضل مقارنة بالطرق المتقدمة الحالية. نوفر تمثيلات قابلة للتفسير لمجموعة الفضاء الخاصة بمربعات مشاهد الحشود المستنتجة من البديل. يُلاحظ أن البديل يرسل مربع الصورة إلى عمود شبكة النيورونات التلافيفية المحدد بناءً على كثافة الحشد.