MIST: إطار تدريب ذاتي متعدد المجموعات للكشف عن السلوك غير الطبيعي في الفيديو

كشف التسلسلات الفيديو عن الشذوذ بمساعدة مراقبة ضعيفة (WS-VAD) يهدف إلى التمييز بين الأحداث الشاذة والأنشطة الطبيعية بناءً على تمثيلات تمييزية. تُعدّ الدراسات الحالية محدودة إلى حدٍ ما بسبب ضعف تمثيلات الفيديو. في هذا العمل، نطوّر إطارًا ذاتي التدريب متعدد الأمثلة (MIST) لتحسين تمثيلات تمييزية مخصصة للمهمة بكفاءة، باستخدام فقط تسميات على مستوى الفيديو. يتكوّن MIST بشكل خاص من: 1) منشئ علامات افتراضية متعدد الأمثلة، الذي يطبّق استراتيجية عينة مستمرة نادرة لتكوين علامات افتراضية على مستوى القطع أكثر موثوقية؛ و2) مشغّل ميزات مُعزّز بالانتباه التوجيهي الذاتي، الذي يهدف إلى التركيز تلقائيًا على المناطق الشاذة داخل الإطارات أثناء استخلاص التمثيلات المخصصة للمهمة. علاوةً على ذلك، نطبّق خطة ذاتي التدريب لتحسين المكونين معًا، ونحصل في النهاية على مشغّل ميزات مخصص للمهمة. تُظهر التجارب الواسعة على مجموعتين بيانات عامتين فعالية طريقة我们的، حيث تُظهر الأداء مساويًا أو حتى أفضل من الطرق المراقبة والضعيفة المُعتمدة على المراقبة الحالية، وبخاصةً تحقيق أداء بنسبة AUC على مستوى الإطار بلغ 94.83% على مجموعة بيانات شانغهاي تك.