HyperAIHyperAI

Command Palette

Search for a command to run...

متعدد المقاييس التحويلية للعنق الضيق للكشف عن العنف متعدد الوسائط بإشراف ضعيف

Shengyang Sun Jianwei Ma

الملخص

الكشف عن العنف متعدد الوسائط تحت إشراف ضعيف يهدف إلى تعلم نموذج للكشف عن العنف من خلال الاستفادة من وسائط متعددة مثل الألوان الحمراء والخضراء والزرقاء (RGB)، التدفق البصري، والصوت، بينما تكون التسميات متوفرة فقط على مستوى الفيديو. في سعيها لتحقيق الكشف عن العنف متعدد الوسائط (MVD) بشكل فعال، تم تحديد ثلاثة تحديات رئيسية وهي: تكرار المعلومات، عدم توازن الوسائط، وعدم توافق زمني بين الوسائط. في هذا العمل، نقترح طريقة جديدة للإشراف الضعيف على MVD تعالج هذه التحديات بشكل صريح. بصفة خاصة، نقدم وحدة دمج تعتمد على محول الزجاجة المتعدد المقاييس (Multi-Scale Bottleneck Transformer - MSBT) الذي يستخدم عددًا مخفضًا من رموز الزجاجة لتجميع المعلومات تدريجيًا ودمج كل زوج من الوسائط ويستخدم نظام وزنيًا قائمًا على رموز الزجاجة لتسليط الضوء على الميزات المدمجة الأكثر أهمية. بالإضافة إلى ذلك، نقترح خسارة التباين الزمني الثابت لتوحيد الميزات المدمجة زوجًا زوجًا على المستوى الدلالي. أظهرت التجارب التي أجريت على أكبر مجموعة بيانات XD-Violence أن الطريقة المقترحة حققت أفضل الأداء حاليًا. يمكن الحصول على الشفرة البرمجية من الرابط:https://github.com/shengyangsun/MSBT.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
متعدد المقاييس التحويلية للعنق الضيق للكشف عن العنف متعدد الوسائط بإشراف ضعيف | مستندات | HyperAI