مُشَرِّح تلقائي تكاملي مبني على الانتباه للكشف عن الشذوذ في الفيديو

كشف التلقائي عن الشذوذ يُعد مهمة بالغة الأهمية في أنظمة المراقبة بالفيديو، والتي تُستخدم على نطاق واسع في مجالات السلامة العامة وغيرها. تعتمد هذه الأنظمة على شبكة موحدة تضم فرعًا مكانيًا وفرعًا زمنيًا، بهدف استغلال المعلومات المكانية والزمنية بشكل فعّال. تتكون الشبكة من بنية مُعيدة تكوينية ذات بقايا (Residual Autoencoder)، وتشمل معالجًا مُشفّرًا مبنيًا على شبكة عصبية تلافيفية عميقة (Deep Convolutional Neural Network)، ومعالجًا فك تشفير متعدد المراحل مبني على انتباه القناة (Channel Attention)، وتُدرَّب بطريقة غير مراقبة. ويُستخدم أسلوب النقل الزمني (Temporal Shift Method) لاستغلال الميزات الزمنية، بينما يتم استخراج الاعتماد السياقي من خلال وحدات انتباه القناة. وقد تم تقييم أداء النظام باستخدام ثلاث مجموعات بيانات معيارية قياسية. وأظهرت النتائج أن شبكتنا تتفوّق على الطرق المتطورة حديثًا، حيث حققت معدلات تبلغ 97.4% في مجموعة بيانات UCSD Ped2، و86.7% في CUHK Avenue، و73.6% في مجموعة بيانات ShanghaiTech، من حيث مساحة تحت المنحنى (Area Under Curve) على التوالي.