اختبار الإغلاق يساعد: الكشف الفعّال عن الشذوذ في الفيديو من خلال التعلّم لإكمال أحداث الفيديو

باعتبارها موضوعًا جوهريًا في تفسير محتوى الوسائط، حققت كشف التسلسلات غير الطبيعية في الفيديو (VAD) تقدمًا واعدًا من خلال الشبكات العصبية العميقة (DNN). ومع ذلك، فإن الطرق الحالية تُتبع عادةً نمط إعادة البناء أو توقع الإطارات، وتواجه فجوات متعددة: (1) لا يمكنها تحديد أنشطة الفيديو بطريقة دقيقة وشاملة في آنٍ واحد. (2) تفتقر إلى القدرة الكافية على استغلال المعلومات الدلالية عالية المستوى وسياق الزمن. مستوحى من اختبار "الحذف المُكتمل" (Cloze Test) الشائع في دراسة اللغة، نقترح حلًا جديدًا لمشكلة VAD يُسمى "إكمال الحدث في الفيديو" (VEC)، بهدف سد هذه الفجوات: أولاً، نُقدّم نموذجًا جديدًا يُحقق تغطية دقيقة وشاملة لأنشطة الفيديو. نستفيد من الخصائص البصرية (الظهور) والحركة كمؤشرات متكاملة لتحديد مناطق الاهتمام (RoIs). ثم نُنشئ مكعبًا زمانيًا-مكانياً مُعيّنًا (STC) لكل RoI، ليُشكّل حدثًا في الفيديو، وهو ما يُمثّل الأساس لـ VEC ويُعدّ الوحدة الأساسية للمعالجة. ثانيًا، نشجّع الشبكة العصبية العميقة على استيعاب الدلالة عالية المستوى من خلال حل اختبار بصري مُشابه لاختبار الحذف المُكتمل. لبناء هذا الاختبار البصري، نُزيل جزءًا محددًا من مكعب STC، مما يُنتج حدثًا غير مكتمل (IE). ثم تتعلم الشبكة العصبية استرجاع الحدث الأصلي من هذا الحدث غير المكتمل من خلال استنتاج الجزء المفقود. ثالثًا، لدمج ديناميات الحركة الغنية أكثر، نُدرّب شبكة عصبية عميقة أخرى لاستنتاج تدفق البكسل (optical flow) الخاص بالجزء المُزال. أخيرًا، نقترح استراتيجيتين مدمجتين تستخدمان أنواعًا مختلفة من الحدث غير المكتمل (IE) والبيانات متعددة الأنواع (modalities)، بهدف تعزيز أداء كشف التسلسلات غير الطبيعية، وذلك للاستفادة القصوى من السياق الزمني ومعلومات الوسائط المختلفة. يُظهر VEC أداءً أفضل بوضوح مقارنةً بالأساليب الحالية المتطورة، بمعدل ملحوظ (عادةً من 1.5% إلى 5% في مقياس AUROC) على مجموعات البيانات الشائعة لـ VAD. يمكن التحقق من الكود والنتائج عبر الرابط: github.com/yuguangnudt/VEC_VAD.