نظام 3D ResNet مع دالة خسارة التصنيف للكشف عن الأنشطة غير الطبيعية في الفيديوهات

كشف النشاط غير الطبيعي يعد أحد أكثر المهام تحديًا في مجال الرؤية الحاسوبية. تُحفَّز هذه الدراسة على العمل الحديث المُتقدم في مجال كشف النشاط غير الطبيعي، والذي يستخدم مقاطع فيديو طبيعية وغير طبيعية معًا في عملية التعلم على الكشف عن السلوك غير الطبيعي، وذلك بمساعدة تعلم المجموعات المتعددة (Multiple Instance Learning) من خلال توفير معلومات على مستوى الفيديو. وفي غياب التسميات الزمنية (temporal-annotations)، يكون مثل هذا النموذج عرضة لإعطاء إنذارات خاطئة أثناء كشف النشاط غير الطبيعي. ولذلك، يركّز هذا البحث على تقليل معدل الإنذارات الخاطئة أثناء أداء مهمة كشف النشاط غير الطبيعي. وتمكّننا تقليل هذه الإنذارات الخاطئة، إلى جانب التطورات الحديثة في الشبكات العصبية العميقة ثلاثية الأبعاد (3D deep neural networks) في مهام التعرف على الحركات في الفيديو، من استغلال شبكة ResNet ثلاثية الأبعاد في الطرق المقترحة، والتي تساعد على استخلاص الميزات المكانية-الزمنية من مقاطع الفيديو. وبعد ذلك، وباستخدام هذه الميزات مع تعلم المجموعات المتعددة العميق، إلى جانب دالة الخسارة المرتبة (ranking loss) المُقترحة، يتعلم النموذج التنبؤ بدرجة غير الطبيعية على مستوى قطع الفيديو. وبالتالي، يحقق النموذج المقترح، المسمى "تعلم المجموعات المتعددة العميق ثلاثي الأبعاد مع ResNet (MILR)"، بالإضافة إلى دالة الخسارة المرتبة الجديدة، أفضل أداء على مجموعة بيانات معيار UCF-Crime مقارنةً بالطرق المتطورة الأخرى. ويُثبت هذا البحث فعالية الطريقة المقترحة على مجموعة بيانات UCF-Crime.