HyperAIHyperAI
منذ 2 أشهر

متعدد المقاييس التحويلية للعنق الضيق للكشف عن العنف متعدد الوسائط بإشراف ضعيف

Sun, Shengyang ; Gong, Xiaojin
متعدد المقاييس التحويلية للعنق الضيق للكشف عن العنف متعدد الوسائط بإشراف ضعيف
الملخص

الكشف عن العنف متعدد الوسائط تحت إشراف ضعيف يهدف إلى تعلم نموذج للكشف عن العنف من خلال الاستفادة من وسائط متعددة مثل الألوان الحمراء والخضراء والزرقاء (RGB)، التدفق البصري، والصوت، بينما تكون التسميات متوفرة فقط على مستوى الفيديو. في سعيها لتحقيق الكشف عن العنف متعدد الوسائط (MVD) بشكل فعال، تم تحديد ثلاثة تحديات رئيسية وهي: تكرار المعلومات، عدم توازن الوسائط، وعدم توافق زمني بين الوسائط. في هذا العمل، نقترح طريقة جديدة للإشراف الضعيف على MVD تعالج هذه التحديات بشكل صريح. بصفة خاصة، نقدم وحدة دمج تعتمد على محول الزجاجة المتعدد المقاييس (Multi-Scale Bottleneck Transformer - MSBT) الذي يستخدم عددًا مخفضًا من رموز الزجاجة لتجميع المعلومات تدريجيًا ودمج كل زوج من الوسائط ويستخدم نظام وزنيًا قائمًا على رموز الزجاجة لتسليط الضوء على الميزات المدمجة الأكثر أهمية. بالإضافة إلى ذلك، نقترح خسارة التباين الزمني الثابت لتوحيد الميزات المدمجة زوجًا زوجًا على المستوى الدلالي. أظهرت التجارب التي أجريت على أكبر مجموعة بيانات XD-Violence أن الطريقة المقترحة حققت أفضل الأداء حاليًا. يمكن الحصول على الشفرة البرمجية من الرابط:https://github.com/shengyangsun/MSBT.

متعدد المقاييس التحويلية للعنق الضيق للكشف عن العنف متعدد الوسائط بإشراف ضعيف | أحدث الأوراق البحثية | HyperAI