إطار هجين detecion الشذوذ في الفيديو من خلال إعادة بناء التدفق المدعوم بالذاكرة وتوقع الإطارات الموجهة بالتدفق

في هذه الورقة، نقترح إطار العمل الهجين $\text{HF}^2$-VAD، الذي يدمج بسلاسة بين إعادة بناء التدفق البصري وتنبؤ الإطارات لمعالجة كشف الشذوذ في الفيديو. أولاً، نصمم شبكة ML-MemAE-SC (وحدات الذاكرة متعددة المستويات في مُشفِّر تلقائي مع اتصالات تخطّي) لحفظ الأنماط الطبيعية لإعادة بناء التدفق البصري، بحيث يمكن تحديد الأحداث الشاذة بشكل حساس من خلال أخطاء أكبر في إعادة بناء التدفق. والأهم من ذلك، بالاعتماد على التدفقات المُعاد بناؤها، نستخدم بعد ذلك مُشفِّرًا تلقائيًا احتماليًا مشروطًا (CVAE)، والذي يلتقط الارتباط العالي بين الإطار الفيديو والتدفق البصري، لتنبؤ الإطار التالي بناءً على عدة إطارات سابقة. وباستخدام CVAE، تؤثر جودة إعادة بناء التدفق بشكل جوهري على جودة تنبؤ الإطار. وبالتالي، فإن إعادة بناء التدفقات البصرية بشكل ضعيف في الأحداث الشاذة تُفاقم من تدهور جودة الإطار المستقبلي المُتوقع في النهاية، مما يجعل الشذوذ أكثر قابلية للكشف. تُظهر النتائج التجريبية فعالية الطريقة المقترحة. يمكن الوصول إلى الكود من خلال الرابط: \href{https://github.com/LiUzHiAn/hf2vad}{https://github.com/LiUzHiAn/hf2vad}.