HyperAIHyperAI
منذ 17 أيام

العدّ الجماعي عبر المشاهد المختلفة باستخدام الشبكات العصبية التلافيفية العميقة

{Xiaokang Yang, Cong Zhang, Hongsheng Li, Xiaogang Wang}
العدّ الجماعي عبر المشاهد المختلفة باستخدام الشبكات العصبية التلافيفية العميقة
الملخص

يُعدُّ عدُّ الحشود عبر المشاهد المختلفة مهمةً صعبة، حيث لا يتطلب الأمر إجراءً يدويًا لوضع التسميات على البيانات عند عد الناس في مشاهد مراقبة حشود جديدة لم تُرَ في مجموعة التدريب. ينخفض أداء معظم الطرق الحالية لعد الحشود بشكل كبير عند تطبيقها على مشهد غير مرئي. ولحل هذه المشكلة، نقترح شبكة عصبية متعددة الطبقات باستخدام التعلم التبايني العميق (CNN)، والتي تُدرَّب بشكل متزامن على هدفين مرتبطين: كثافة الحشود وعدد الحشود. تتيح لنا هذه الطريقة القابلة للتبديل للتعلم تحقيق حد أقصى محلي أفضل لكليهما. ولمعالجة مشهد حشود هدف غير مرئي، نقدّم طريقة تعتمد على البيانات لتعديل نموذج شبكة CNN المدرّب حسب المشهد المستهدف. كما نقدّم مجموعة بيانات جديدة تتضمّن 108 مشاهد حشود مع ما يقارب 200,000 تسمية لرؤوس البشر، بهدف تقييم دقة طرق عد الحشود عبر المشاهد بشكل أفضل. تُظهر التجارب الواسعة على المجموعة المقترحة والاثنتين الأخريين القائمتين فعالية وموثوقية النهج المُقترح.