Command Palette
Search for a command to run...
VadCLIP: تكييف نماذج الرؤية واللغة للكشف عن الشذوذ في الفيديو بمحفظة مراقبة ضعيفة
VadCLIP: تكييف نماذج الرؤية واللغة للكشف عن الشذوذ في الفيديو بمحفظة مراقبة ضعيفة
Yanning Zhang Peng Wang Qingsen Yan Lingru Zhou Guansong Pang Xuerong Zhou Peng Wu
الملخص
أظهر النموذج الحديث المُدرَّب مسبقًا باللغة والصورة باستخدام التباين (CLIP) نجاحًا كبيرًا في مجموعة واسعة من المهام المرتبطة بالصور، مما كشف عن قدرة مميزة على تعلّم تمثيلات بصرية قوية ذات معاني غنية. وتشكل مشكلة تكييف هذا النموذج القوي بكفاءة في المجال الفيديوي، وتصميم كاشف قوي للشذوذ في الفيديو، مشكلة مفتوحة وذات قيمة. في هذا العمل، نقترح VadCLIP، نموذجًا جديدًا للكشف عن الشذوذ في الفيديو المُدرَّب بشكل ضعيف (WSVAD)، من خلال الاستفادة المباشرة من نموذج CLIP الثابت دون أي عملية تدريب مسبق أو تعديل دقيق. على عكس الطرق الحالية التي تُدخل ميزات مستخرجة مباشرة إلى تصنيف ضعيف التدريب لتصنيف ثنائي على مستوى الإطارات، يُستغل VadCLIP بالكامل الترابطات الدقيقة بين الرؤية واللغة بفضل قوة نموذج CLIP، مع استخدام بنية مزدوجة. يعتمد الفرع الأول على ميزات بصرية بسيطة لتصنيف ثنائي على مستوى خشن، بينما يستغل الفرع الثاني بالكامل التوافيق الدقيقة بين اللغة والصورة. وبفضل البنية المزدوجة، يحقق VadCLIP كلاً من الكشف عن الشذوذ في الفيديو على مستوى خشن ودقيق من خلال نقل المعرفة المُدرَّبة مسبقًا من CLIP إلى مهمة WSVAD. أجرينا تجارب واسعة على معيارين شائعين، وأظهرت النتائج أن VadCLIP يحقق أفضل أداء على كل من الكشف على مستوى خشن ودقيق في WSVAD، متفوّقًا على الطرق الرائدة بفارق كبير. وبشكل خاص، حقق VadCLIP 84.51% من AP و88.02% من AUC على مجموعتي XD-Violence وUCF-Crime على التوالي. تم إصدار الكود والميزات على الرابط: https://github.com/nwpu-zxr/VadCLIP.