HyperAIHyperAI
منذ 8 أيام

ليس فقط النظر، بل أيضًا الاستماع: تعلُّم الكشف متعدد الوسائط عن العنف تحت الإشراف الضعيف

Peng Wu, Jing Liu, Yujia Shi, Yujia Sun, Fangtao Shao, Zhaoyang Wu, Zhiwei Yang
ليس فقط النظر، بل أيضًا الاستماع: تعلُّم الكشف متعدد الوسائط عن العنف تحت الإشراف الضعيف
الملخص

تم دراسة كشف العنف في مجال الرؤية الحاسوبية لسنوات عديدة. ومع ذلك، كانت الدراسات السابقة إما سطحية، مثل تصنيف مقاطع قصيرة وحالات محدودة، أو غير كافية، مثل استخدام وسيلة واحدة فقط أو ميزات مصممة يدويًا في السياقات متعددة الوسائط. لمعالجة هذه المشكلة، نُقدِّم في هذه الدراسة أول مجموعة بيانات كبيرة ومتعددة المشاهد تُدعى XD-Violence، بمسافة زمنية إجمالية تبلغ 217 ساعة، وتشمل 4754 مقطعًا فيديو غير مُقطّع مصحوبًا بإشارات صوتية وعلامات ضعيفة. ثم نقترح شبكة عصبية تحتوي على ثلاثة فروع متوازية لالتقاط العلاقات المختلفة بين مقاطع الفيديو ودمج الميزات، حيث تلتقط الفرع الشامل الاعتماديات الطويلة المدى باستخدام معلومات أولية حول التشابه، ويلتقط الفرع الموضعي العلاقات المكانية المحلية باستخدام معلومات أولية حول القرب، بينما يلتقط الفرع المُقيّم بشكل ديناميكي درجة التقارب في التوقعات. علاوة على ذلك، يشتمل طريقة العمل لدينا على مُقرب (approximator) لتلبية احتياجات الكشف المباشر (online detection). أظهرت النتائج التجريبية أن طريقة العمل لدينا تتفوّق على الطرق الرائدة الأخرى على مجموعة البيانات التي أطلقناها وعلى المعايير الحالية الأخرى. كما تُظهر النتائج التجريبية الواسعة تأثيرًا إيجابيًا لاستخدام الإدخال المتعدد الوسائط (الصوتي والبصري) ونمذجة العلاقات بينها. سيتم نشر الكود والبيانات على الرابط: https://roc-ng.github.io/XD-Violence/.