HyperAIHyperAI

Command Palette

Search for a command to run...

شبكة انتباه موجهة بالصوت للكشف عن العنف المُراقب بشكل ضعيف

Xiaoyu Wu Yujiang Pu

الملخص

كشف العنف في الفيديو يُعد مهمة صعبة نظرًا لتعقيد السياقات وتنوع التغيرات داخل الفئة الواحدة. وتركز معظم الدراسات السابقة على تحليل معلومات المظهر أو الحركة، مع تجاهل التزامن بين بعض الأحداث الصوتية والبصرية. فغالبًا ما يرافق الصراعات الجسدية مثل السب والعنف الجسدي صراخًا، بينما تكون الصراعات الجماعية مثل الشغب والحروب مرتبطة عادة بإطلاق النار والانفجارات. ولذلك، نقترح إطارًا جديدًا للكشف عن العنف متعدد الوسائط موجهًا بالصوت. أولاً، تُستخدم الشبكات العصبية العميقة لاستخراج ميزات المظهر والصوت بشكل منفصل. ثم نقترح شبكة تُسمى "الوعي المتقاطع للمنبهات المحلية (CMA-LA)" لتمكين التفاعل بين الوسائط، حيث تُعزز الميزات الصوتية من الميزات البصرية على طول المحور الزمني. بعد ذلك، تُدخل الميزات المُحسَّنة إلى شبكة متعددة الطبقات (MLP) لالتقاط المعاني عالية المستوى، تليها طبقة ت convolution زمنية لاستخراج درجات الثقة العالية في الكشف عن العنف. ولتأكيد فعالية الطريقة المقترحة، أجرينا تجارب على مجموعة بيانات فيديو عنف كبيرة تُسمى XD Violence. وأظهرت التجارب الشاملة أداءً قويًا وثابتًا لنهجنا، والذي حقق أيضًا نتيجة جديدة على مستوى الحالة الحالية من حيث مؤشر الدقة المتوسطة (AP).


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp