اكتشاف الشذوذ في سلسلة الفيديو باستخدام علاقة المظهر والحركة

اكتشاف الشذوذ في مقاطع الفيديو المراقبة يمثل حاليًا تحديًا بسبب تنوع الأحداث المحتملة. نقترح استخدام شبكة عصبية عميقة تستخدم التحويلات الإدراكية (CNN) لمعالجة هذه المشكلة من خلال تعلم العلاقة بين مظاهر الأشياء الشائعة (مثل المشاة، الخلفية، الأشجار، إلخ) وحركاتها المرتبطة. تم تصميم نموذجنا كدمج بين شبكة إعادة بناء ونموذج ترجمة صور يشتركان في نفس المُشفِّر (Encoder). تقوم الشبكة الفرعية الأولى بتحديد الهياكل الأكثر أهمية التي تظهر في إطارات الفيديو، بينما تحاول الشبكة الفرعية الثانية ربط قوالب الحركة بهذه الهياكل. يتم تنفيذ مرحلة التدريب باستخدام مقاطع فيديو للأحداث الطبيعية فقط، ثم يكون النموذج قادرًا على تقدير درجات على مستوى الإطار لمدخل غير معروف. أظهرت التجارب على ستة مجموعات بيانات مرجعية أداءً تنافسيًا للنهج المقترح مقارنة بالطرق الرائدة في هذا المجال.