كشف عن عنف واقعي ومقاوم في الفيديو باستخدام CNN وLSTM في الوقت الفعلي
يُعدّ كشف حدث عنف في أنظمة المراقبة دورًا مهمًا في إنفاذ القانون وسلامة المدن. وتقاس فعالية كاشفات أحداث العنف من خلال سرعة الاستجابة، والدقة، والقابلية العامة على مصادر الفيديو المختلفة ذات التنسيقات المختلفة. وقد ركّزت عدة دراسات على كشف العنف مع التركيز إما على السرعة أو الدقة أو كليهما، ولكنها لم تأخذ بعين الاعتبار القابلية العامة على أنواع مختلفة من مصادر الفيديو. في هذه الورقة، نقترح نموذجًا للكشف الفوري عن العنف يستند إلى أساليب التعلم العميق. ويتكوّن النموذج المقترح من شبكة عصبية متعددة الطبقات (CNN) كمُستخرج للميزات المكانية، وشبكة عصبية متكررة (LSTM) كطريقة لتعلم العلاقات الزمنية، مع التركيز على العوامل الثلاثة (القابلية العامة الشاملة – الدقة – سرعة الاستجابة السريعة). وقد حقق النموذج المقترح دقة بلغت 98% بسرعة تصل إلى 131 إطارًا في الثانية. وعند مقارنة الدقة والسرعة بين النموذج المقترح والدراسات السابقة، تبيّن أن النموذج المقترح يوفر أعلى دقة وأسرع سرعة مقارنة بجميع الدراسات السابقة في مجال كشف العنف.