SSMTL++: إعادة النظر في التعلم متعدد المهام الذاتي التحفيز للكشف عن الشذوذ في الفيديو

تم مؤخرًا تقديم إطار عمل للتعلم متعدد المهام ذاتي التدريب (SSMTL) للكشف عن الشذوذ في الفيديو في الأدبيات الحديثة. وبسبب دقة نتائجه العالية، جذب هذا الأسلوب انتباه العديد من الباحثين. في هذا العمل، نعيد النظر في إطار العمل ذاتي التدريب متعدد المهام، ونُقدّم عدة تحسينات على الطريقة الأصلية. أولاً، ندرس طرقًا مختلفة للكشف، مثل الكشف عن مناطق الحركة العالية باستخدام التدفق البصري أو طريقة استبعاد الخلفية، نظرًا لاعتقادنا بأن نموذج YOLOv3 المُدرَّب مسبقًا المستخدم حاليًا ليس الأمثل، إذ لا يتم اكتشاف الكائنات المتحركة أو الكائنات المنتمية إلى فئات غير معروفة أبدًا. ثانيًا، نُحدث هيكل النواة الثلاثية الأبعاد (3D convolutional backbone) من خلال إدخال وحدات الانتباه الذاتي متعددة الرؤوس، مستوحاة من النجاح الأخير للنماذج المُعتمدة على المحولات البصرية (Vision Transformers). وبهذا، نُقدّم بديلًا يدمج كلاً من كتل المحولات البصرية ذات البعدين (2D) والثلاثي الأبعاد (3D) (CvT). ثالثًا، في محاولة لتحسين الأداء بشكل أكبر، نستعرض مهام إضافية للتعلم الذاتي، مثل التنبؤ بخرائط التجزئة من خلال نقل المعرفة (knowledge distillation)، وحل ألغاز الجigsaw، وتقدير وضع الجسم من خلال نقل المعرفة، والتنبؤ بالمناطق المُقنّعة (الاستكمال التلقائي - inpainting)، والتعلم المضاد باستخدام شذوذ افتراضية (pseudo-anomalies). قمنا بإجراء تجارب لتقييم تأثير التغييرات المُقدّمة. وبعد تحديد تكوينات أكثر واعدًا للإطار، والتي أطلقنا عليها أسماء SSMTL++v1 وSSMTL++v2، قمنا بتوسيع تجاربنا الأولية إلى مجموعات بيانات أكثر، وأظهرنا أن مكاسب الأداء لدينا ثابتة عبر جميع مجموعات البيانات. في معظم الحالات، رفعت نتائجنا على مجموعات البيانات Avenue وShanghaiTech وUBnormal مستوى الأداء المُتقدم (state-of-the-art) إلى مستوى جديد.