التعرف على الأحداث غير الطبيعية في الفيديوهات بناءً على التعلم المشترك للحركة والشكل باستخدام قياسات التصنيف المتعددة
بالنظر إلى ندرة مجموعات البيانات المُعلَّمة، يُعدّ التعلّم على الاعتماد على السياق في الأحداث غير الطبيعية والتقليل من الإنذارات الخاطئة من التحديات الرئيسية في مهمة اكتشاف الأنشطة غير الطبيعية. نقترح إطارًا يُسمى الشبكة العميقة ذات قياسات الترتيب المتعددة (DMRMs)، والذي يعالج الاعتماد على السياق باستخدام تقنية تعلّم مجمّعة لخصائص الحركة والملامح البصرية. في إطار DMRMs، يتم استخراج الخصائص الزمنية-المكانية من الفيديو باستخدام شبكة مُتعدّدة الأبعاد من نوع الشبكة العميقة ذات التوصيل العكسي (3D ResNet)، بينما يتم استخراج الخصائص العميقة للحركة من خلال دمج معلومات خرائط الحركة (Motionflow) مع الشبكة 3D ResNet. وبعد ذلك، تُدمج الخصائص المستخرجة لتنفيذ تعلّم مجمّع. ثم تمر هذه الدمج البيانات عبر شبكة عصبية عميقة لتنفيذ تعلّم المثيلات المتعددة العميق (DMIL) بهدف التعلّم على الاعتماد على السياق بطريقة مُعلّمة بشكل ضعيف، باستخدام قياسات الترتيب المتعددة المُقترحة (MRMs). وتُراعي هذه القياسات المتعددة معايير متعددة للإنذارات الخاطئة، ويتم تدريب الشبكة على كل من الأحداث الطبيعية والغير طبيعية، مما يؤدي إلى تقليل معدل الإنذارات الخاطئة. وفي مرحلة الاستنتاج، تُقدّر الشبكة درجة غير الطبيعية لكل إطار، مع تحديد مواقع الكائنات المتحركة باستخدام خرائط الحركة. وتشير الدرجة العالية لعدم الطبيعية إلى وجود حدث غير طبيعي. أظهرت النتائج التجريبية على نوعين من مجموعات البيانات الحديثة والصعبة أن الإطار المقترح يُحسّن مقياس المساحة تحت المنحنى (AUC) بنسبة 6.5% مقارنة بالطريقة الحالية في أداء الأداء الأفضل على مجموعة بيانات UCF-Crime، ويُحقّق مقياس AUC قدره 68.5% على مجموعة بيانات ShanghaiTech.