الدمج عبر الأنظمة الحسية وmekanism الانتباه للكشف عن الشذوذ في الفيديو تحت الإشراف الضعيف

في الآونة الأخيرة، ظهرت تقنية الكشف عن الشذوذ في الفيديو تحت الإشراف الضعيف (WS-VAD) كاتجاه بحثي معاصر لتحديد أحداث الشذوذ مثل العنف والإباحية في الفيديوهات باستخدام تسميات على مستوى الفيديو فقط. ومع ذلك، فإن هذه المهمة تحمل تحديات كبيرة، بما في ذلك معالجة المعلومات غير المتوازنة بين الأوضاع المختلفة والتمييز بشكل مستمر بين الخصائص الطبيعية والشاذة. في هذا البحث، نتناول هذه التحديات ونقترح إطارًا متعدد الأوضاع للكشف عن الشذوذ تحت الإشراف الضعيف (WS-VAD) للكشف الدقيق عن أحداث الشذوذ مثل العنف والإباحية. ضمن الإطار المقترح، نقدم آلية دمج جديدة تُعرف باسم مكيف الدمج العابر للأوضاع (Cross-modal Fusion Adapter - CFA)، والذي يختار ويحسن بشكل ديناميكي الخصائص السمعية-البصرية ذات الصلة العالية بالنسبة للوضع البصري. بالإضافة إلى ذلك، نقدم انتباه الرسم البياني اللورنتزي الزائد (Hyperbolic Lorentzian Graph Attention - HLGAtt) لالتقاط العلاقات الهرمية بين التمثيلات الطبيعية والشاذة بكفاءة، مما يعزز دقة فصل الخصائص. من خلال التجارب الواسعة النطاق، نثبت أن النموذج المقترح يحقق نتائج رائدة على قواعد البيانات المرجعية للكشف عن العنف والإباحية.