HyperAIHyperAI

Command Palette

Search for a command to run...

تصنيف الفيديو ذو التيارين مع انتباه متعدد الوسائط

Lu Chi; Guiyu Tian; Yadong Mu; Qi Tian

الملخص

دمج المعلومات متعددة الوسائط معروف بأنه يمكن أن يحقق تحسينًا كبيرًا بشكل فعال في تصنيف الفيديو. ومع ذلك، فإن الطريقة الأكثر شيوعًا حتى الآن لا تزال هي دمج درجات التنبؤ لكل مسار في المرحلة الأخيرة. السؤال المشروع هو ما إذا كانت هناك طريقة أكثر فعالية لدمج المعلومات بين الوسائط. مع تطور آلية الانتباه في معالجة اللغات الطبيعية، ظهرت العديد من التطبيقات الناجحة للانتباه في مجال الرؤية الحاسوبية. في هذا البحث، نقترح عملية انتباه عبر الوسائط، والتي يمكنها الحصول على معلومات من وسائط أخرى بطريقة أكثر فعالية من طريقة المسار المزدوج. وفقًا لذلك، قمنا بتنفيذ كتلة متوافقة تُسمى كتلة CMA (Cross-Modality Attention)، وهي غلاف لعملية الانتباه المقترحة لدينا. يمكن دمج الكتلة CMA في العديد من الأطر المعمارية القائمة. في التجارب، قمنا بمقارنة شاملة لطريقتنا مع نماذج المسار المزدوج والنموذج غير المحلي التي تستخدم على نطاق واسع في تصنيف الفيديو. أظهرت جميع التجارب بوضوح التفوق الأداء بواسطة طريقتنا المقترحة. كما قمنا أيضًا بتحليل مزايا الكتلة CMA عن طريق تصوير خريطة الانتباه، مما يوضح بشكل حدسي كيف تساعد الكتلة في التنبؤ النهائي.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
تصنيف الفيديو ذو التيارين مع انتباه متعدد الوسائط | مستندات | HyperAI