التعرف على العنف من الفيديوهات باستخدام تقنيات التعلم العميق
تمثّل القدرة على التعرف التلقائي على العنف بين الأفراد أو الحشود في مقاطع الفيديو مجالًا يحظى باهتمام واسع. في هذا العمل، نقترح نموذجًا شبكيًا عصبيًا عميقًا يعتمد على منهجية النهاية إلى النهاية (end-to-end) لغرض التعرف على العنف في مقاطع الفيديو. يستخدم النموذج المقترح مُستخرج الميزات المكانية VGG-16 المُدرّب مسبقًا على مجموعة بيانات ImageNet، يليه مُستخرج الميزات الزمنية باستخدام الشبكة العصبية طويلة الذاكرة القصيرة (LSTM)، وسلسلة من الطبقات المتصلة بالكامل (fully connected layers) لأغراض التصنيف. وقد حقق النموذج دقة قريبة من أحدث النماذج المطورة حاليًا. بالإضافة إلى ذلك، نساهم في تقديم معيار جديد يُسمى "الوضعيات الواقعية للعنف" (Real-Life Violence Situations)، والذي يتضمن 2000 مقطع فيديو قصيرًا مقسمة إلى 1000 مقطع عنف و1000 مقطع غير عنف. يُستخدم هذا المعيار الجديد لضبط النموذج الدقيق (fine-tuning)، مما أسفر عن تحقيق أفضل دقة تبلغ 88.2%.