Localized Anomalies from Videos with Weak Labels

كشف الشذوذ في الفيديو باستخدام تسميات على مستوى الفيديو يُعد حاليًا مهمةً صعبة. وقد تقدمت الدراسات السابقة في التمييز بين ما إذا كان تسلسل الفيديو يحتوي على شذوذ أم لا. ومع ذلك، فإن معظم هذه الدراسات تفشل في تحديد المواقع الدقيقة للأحداث الشاذة داخل الفيديو ضمن المجال الزمني. في هذا البحث، نقترح منهجية جديدة تُعرف بـ (WSAL) أي كشف الشذوذ المُراقب ضعيفًا، وتُركّز على تحديد المواقع الزمنية للأجزاء الشاذة داخل الفيديوهات الشاذة. مستوحى من الفرق البصري في الفيديوهات الشاذة، نقيّم تطور التسلسلات الزمنية المجاورة لتحديد المواقع الزمنية للأجزاء الشاذة. ولتحقيق ذلك، نقترح نموذجًا لترميز السياق من الدرجة العليا، يُستخدم لاكتشاف التمثيلات الدلالية قدر الإمكان، وقياس التغيرات الديناميكية، بحيث يمكن استغلال السياق الزمني بشكل فعّال. بالإضافة إلى ذلك، لاستغلال معلومات السياق المكاني بشكل كامل، يتم استخلاص المعاني الفورية مباشرة من تمثيلات المقاطع. ويتم جمع التغيرات الديناميكية مع المعاني الفورية بشكل فعّال للحصول على الدرجات النهائية للشذوذ. كما نقترح استراتيجية تحسينية لمعالجة تأثيرات الضوضاء وغياب التوجيه في عملية الكشف عن الشذوذ. علاوةً على ذلك، ولتسهيل متطلبات التنوّع في معايير كشف الشذوذ، نُجمِع أيضًا مجموعة بيانات جديدة تُسمّى "TAD" (بيانات الشذوذ المروري)، والتي تركز على الظروف المرورية، وتميّز عن المعايير الشائعة الحالية لتقييم كشف الشذوذ. أجرينا تجارب واسعة لتأكيد فعالية المكونات المختلفة، وحققت الطريقة المقترحة أداءً متميزًا على مستوى الحد الأقصى من الأداء (SOTA) على مجموعتي بيانات UCF-Crime وTAD.