شبكة انتباه موجهة بالصوت للكشف عن العنف المُراقب بشكل ضعيف
كشف العنف في الفيديو يُعد مهمة صعبة نظرًا لتعقيد السياقات وتنوع التغيرات داخل الفئة الواحدة. وتركز معظم الدراسات السابقة على تحليل معلومات المظهر أو الحركة، مع تجاهل التزامن بين بعض الأحداث الصوتية والبصرية. فغالبًا ما يرافق الصراعات الجسدية مثل السب والعنف الجسدي صراخًا، بينما تكون الصراعات الجماعية مثل الشغب والحروب مرتبطة عادة بإطلاق النار والانفجارات. ولذلك، نقترح إطارًا جديدًا للكشف عن العنف متعدد الوسائط موجهًا بالصوت. أولاً، تُستخدم الشبكات العصبية العميقة لاستخراج ميزات المظهر والصوت بشكل منفصل. ثم نقترح شبكة تُسمى "الوعي المتقاطع للمنبهات المحلية (CMA-LA)" لتمكين التفاعل بين الوسائط، حيث تُعزز الميزات الصوتية من الميزات البصرية على طول المحور الزمني. بعد ذلك، تُدخل الميزات المُحسَّنة إلى شبكة متعددة الطبقات (MLP) لالتقاط المعاني عالية المستوى، تليها طبقة ت convolution زمنية لاستخراج درجات الثقة العالية في الكشف عن العنف. ولتأكيد فعالية الطريقة المقترحة، أجرينا تجارب على مجموعة بيانات فيديو عنف كبيرة تُسمى XD Violence. وأظهرت التجارب الشاملة أداءً قويًا وثابتًا لنهجنا، والذي حقق أيضًا نتيجة جديدة على مستوى الحالة الحالية من حيث مؤشر الدقة المتوسطة (AP).