ميزات سياق مُحسَّنة بالتحفيز التعلُّمي للكشف عن الشذوذ في الفيديو بالاعتماد على تدريب ضعيف

كشف التسلسلات غير الطبيعية في الفيديو تحت الإشراف الضعيف يواجه تحديات كبيرة، خصوصًا بسبب غياب التسميات على مستوى الإطارات أثناء التدريب. وعلى الرغم من أن الأبحاث السابقة استخدمت شبكات الت convolution الرسومية وآليات الانتباه الذاتي مع خسارة تصنيف قائمة على التعلم متعدد الفروع (MIL) لتمثيل العلاقات الزمنية وتعلم الميزات التمييزية، إلا أن هذه الأساليب غالبًا ما تعتمد على هياكل متعددة الفروع لالتقاط الاعتماديات المحلية والعالمية بشكل منفصل، ما يؤدي إلى زيادة عدد المعاملات وتكاليف الحوسبة. علاوةً على ذلك، فإن الفصل بين الفئات على مستوى خشن الذي توفره القيود الثنائية لخسارة MIL تتجاهل القدرة التمييزية الدقيقة داخل الفئات غير الطبيعية. لمعالجة هذه المشكلة، يقدّم هذا البحث إطارًا للكشف عن الشذوذ تحت الإشراف الضعيف يركّز على نمذجة السياق بكفاءة وتعزيز القدرة التمييزية الدلالية. نُقدّم وحدة تجميع السياق الزمني (TCA) التي تلتقط معلومات سياقية شاملة من خلال إعادة استخدام مصفوفة التشابه وتنفيذ دمج تكيفي. بالإضافة إلى ذلك، نقترح وحدة التعلم المُعزّز بالمحفزات (PEL) التي تدمج معلومات سابقة دلالية باستخدام محفزات قائمة على المعرفة لتعزيز القدرة التمييزية لميزات السياق مع ضمان الفصل بين الفئات الفرعية للشذوذ. تؤكد التجارب الواسعة على فعالية مكونات طريقة我们的، مُظهرة أداءً تنافسيًا مع تقليل عدد المعاملات وتكلفة الحوسبة على ثلاث معايير صعبة: UCF-Crime، XD-Violence، وشانغهاي تك. وبشكل ملحوظ، تُحسّن طريقة我们的 دقة الكشف لفئات شذوذ معينة، مما يُبرز قيمتها العملية وفعاليتها. يمكن الوصول إلى الكود الخاص بنا من خلال: https://github.com/yujiangpu20/PEL4VAD.