HyperAIHyperAI
منذ 8 أيام

تعلم الكشف عن العنف الصوتي البصري المُراقب بشكل ضعيف في الفضاء الزائد

Xiaogang Peng, Hao Wen, Yikai Luo, Xiao Zhou, Keyang Yu, Ping Yang, Zizhao Wu
تعلم الكشف عن العنف الصوتي البصري المُراقب بشكل ضعيف في الفضاء الزائد
الملخص

في السنوات الأخيرة، أصبحت مهمة الكشف عن العنف الصوتي البصري المُراقب بشكل ضعيف محط اهتمام كبير. ويتمثل الهدف من هذه المهمة في تحديد الفترات العنيفة داخل البيانات متعددة الوسائط استنادًا إلى التسميات على مستوى الفيديو. وعلى الرغم من التقدم المحرز في هذا المجال، فإن الشبكات العصبية الإقليدية التقليدية، التي استُخدمت في الأبحاث السابقة، تواجه صعوبات في استخلاص تمثيلات تمييزية عالية الجودة بسبب قيود فضاء الميزات. وللتغلب على هذا التحدي، نقترح إطارًا جديدًا يُدعى HyperVD، يتعلم تمثيلات القطع الصغيرة (snippets) في الفضاء الزائدي، بهدف تحسين تمييز النموذج. يتكون إطارنا من وحدة تكامل مُلتوية (detour fusion module) لدمج الوسائط المتعددة، مما يُخفف بشكل فعّال من عدم التماسك بين الإشارات الصوتية والبصرية. علاوةً على ذلك، نقدّم فرعين من شبكات الت convolution الرسومية الزائدية الكاملة، اللذين يستكشفان التشابهات في الميزات والعلاقات الزمنية بين القطع الصغيرة داخل الفضاء الزائدي. وباستخدام التعلم في هذا الفضاء، يُمكن للإطار استخلاص الفروق الدلالية الفعّالة بين الأحداث العنيفة والأحداث العادية. وأظهرت التجارب الواسعة على معيار XD-Violence أن طريقة لدينا تتفوّق على أحدث الطرق بفارق ملحوظ.

تعلم الكشف عن العنف الصوتي البصري المُراقب بشكل ضعيف في الفضاء الزائد | أحدث الأوراق البحثية | HyperAI