HyperAIHyperAI
منذ 2 أشهر

اكتشاف وتحديد مواقع الشذوذ في الفيديو تحت الإشراف الضعيف باستخدام دوافع الزمان والمكان

Peng Wu; Xuerong Zhou; Guansong Pang; Zhiwei Yang; Qingsen Yan; Peng Wang; Yanning Zhang
اكتشاف وتحديد مواقع الشذوذ في الفيديو تحت الإشراف الضعيف باستخدام دوافع الزمان والمكان
الملخص

مهمة الكشف عن الشذوذ في الفيديو تحت الإشراف الضعيف (WSVAD) تهدف إلى تحقيق كشف الحدث الشاذ على مستوى الإطار باستخدام فقط التسميات الخشنة على مستوى الفيديو. تعمل الأساليب الحالية عادةً على استخراج الميزات العالمية من الإطارات الكاملة الدقة للفيديو وتدريب تصنيفات على مستوى الإطار لاكتشاف الشذوذ في البعد الزمني. ومع ذلك، فإن معظم الأحداث الشاذة تحدث في مناطق فضائية محليّة بدلاً من الإطارات الكاملة للفيديو، مما يشير إلى أن الأساليب القائمة على ميزات الإطار قد تُضلَل بواسطة المعلومات الخلفية السائدة وتفتقر إلى تفسير للشذوذ المكتشف.لحل هذه المشكلة، يقدم هذا البحث طريقة جديدة تُسمى STPrompt، والتي تتعلم تمثيلات دفع فضائي-زمني (spatio-temporal prompt embeddings) للكشف عن الشذوذ والتحديد المكاني في الفيديو تحت الإشراف الضعيف (WSVADL) بناءً على نماذج الرؤية واللغة المدربة مسبقًا (VLMs). تعتمد الطريقة المقترحة على هيكل شبكة ثنائية التيار، حيث يركز أحد التيارين على البعد الزمني بينما يركز الآخر بشكل أساسي على البعد الفضائي. من خلال الاستفادة من المعرفة المستخرجة من النماذج المدربة مسبقًا وإدخال الأولويات الحركية الطبيعية من مقاطع الفيديو الخام، يتعلم نموذجنا تمثيلات دفع متوافقة مع المناطق الفضائية-الزمنية للفيديوهات (مثل أجزاء الإطارات الفردية) لاكتشاف المناطق المحلية الخاصة بالشذوذ تحديدًا، مما يمكنه من الكشف الدقيق عن الشذوذ في الفيديو مع تخفيف تأثير المعلومات الخلفية. بدون الاعتماد على التسميات الفضائية-الزمنية التفصيلية أو تقنيات الكشف/التتبع المساعدة للأجسام، حققت طريقتنا أداءً رائدًا في ثلاثة مقاييس عامة لمهمة WSVADL.

اكتشاف وتحديد مواقع الشذوذ في الفيديو تحت الإشراف الضعيف باستخدام دوافع الزمان والمكان | أحدث الأوراق البحثية | HyperAI