HyperAIHyperAI
منذ 2 أشهر

محاذاة أولاً، ثم دمج: طريقة جديدة للكشف عن العنف متعدد الوسائط بإشراف ضعيف

Jin, Wenping ; Zhu, Li ; Sun, Jing
محاذاة أولاً، ثم دمج: طريقة جديدة للكشف عن العنف متعدد الوسائط بإشراف ضعيف
الملخص

الكشف عن العنف تحت الإشراف الضعيف يشير إلى تقنية تدريب النماذج لتحديد المقاطع العنيفة في مقاطع الفيديو باستخدام ملصقات على مستوى الفيديو فقط. من بين هذه الأساليب، يعتبر الكشف عن العنف متعدد الوسائط، الذي يدمج وسائط مثل الصوت والتدفق البصري، ذو إمكانات كبيرة. تركز الطرق الحالية في هذا المجال بشكل أساسي على تصميم نماذج دمج متعددة الوسائط لمعالجة الاختلافات بين الوسائط. بخلاف ذلك، نتبع نهجًا مختلفًا؛ حيث نستفيد من الاختلافات الطبيعية عبر الوسائط في تمثيل أحداث العنف لاقتراح طريقة جديدة للتوافق بين الميزات الدلالية المتعددة الوسائط. تقوم هذه الطريقة بتخريج خرائط للميزات الدلالية المحلية والمؤقتة والأقل معلومات (مثل الصوت والتدفق البصري) إلى فضاء الميزات الدلالية RGB الأكثر معلومات. من خلال عملية تكرارية، تحدد الطريقة الفضاء الجزئي المناسب للتطابق غير الصفري وتتوافق التمثيلات الحدثية الخاصة بالوسائط بناءً على هذا الفضاء، مما يتيح الاستغلال الكامل للمعلومات من جميع الوسائط خلال مرحلة الدمج المتعدد الوسائط اللاحقة. بناءً على هذا، صممنا إطار عمل جديد لكشف العنف تحت الإشراف الضعيف يتكون من التعلم متعدد الحالات الأحادي الوسيطة لاستخراج الميزات الدلالية الأحادية الوسيطة، والتوافق المتعدد الوسائط، والدمج المتعدد الوسائط، والكشف النهائي. تظهر نتائج التجارب على مجموعات البيانات المرجعية فعالية طرقنا، حيث حققنا دقة متوسطة (AP) قدرها 86.07٪ على مجموعة بيانات XD-Violence. يمكن الوصول إلى كودنا عبر الرابط https://github.com/xjpp2016/MAVD.