تصنيف الفيديو ذو التيارين مع انتباه متعدد الوسائط

دمج المعلومات متعددة الوسائط معروف بأنه يمكن أن يحقق تحسينًا كبيرًا بشكل فعال في تصنيف الفيديو. ومع ذلك، فإن الطريقة الأكثر شيوعًا حتى الآن لا تزال هي دمج درجات التنبؤ لكل مسار في المرحلة الأخيرة. السؤال المشروع هو ما إذا كانت هناك طريقة أكثر فعالية لدمج المعلومات بين الوسائط. مع تطور آلية الانتباه في معالجة اللغات الطبيعية، ظهرت العديد من التطبيقات الناجحة للانتباه في مجال الرؤية الحاسوبية. في هذا البحث، نقترح عملية انتباه عبر الوسائط، والتي يمكنها الحصول على معلومات من وسائط أخرى بطريقة أكثر فعالية من طريقة المسار المزدوج. وفقًا لذلك، قمنا بتنفيذ كتلة متوافقة تُسمى كتلة CMA (Cross-Modality Attention)، وهي غلاف لعملية الانتباه المقترحة لدينا. يمكن دمج الكتلة CMA في العديد من الأطر المعمارية القائمة. في التجارب، قمنا بمقارنة شاملة لطريقتنا مع نماذج المسار المزدوج والنموذج غير المحلي التي تستخدم على نطاق واسع في تصنيف الفيديو. أظهرت جميع التجارب بوضوح التفوق الأداء بواسطة طريقتنا المقترحة. كما قمنا أيضًا بتحليل مزايا الكتلة CMA عن طريق تصوير خريطة الانتباه، مما يوضح بشكل حدسي كيف تساعد الكتلة في التنبؤ النهائي.