HyperAIHyperAI

Command Palette

Search for a command to run...

Video-FocalNets: توليف تركيزي فراغي-زمني للتصنيف الفعلي للفيديوهات

Syed Talal Wasim Muhammad Uzair Khattak Muzammal Naseer Salman Khan Mubarak Shah Fahad Shahbaz Khan

الملخص

تستخدم النماذج الحديثة لتمييز الفيديو نماذج الترانسفورمر لنموذج السياق الفراغي الزمني على مدى طويل. تعتمد تصاميم ترانسفورمر الفيديو على الانتباه الذاتي (self-attention)، التي تتيح نمذجة السياق العالمي ولكن بتكاليف حسابية عالية. في المقابل، تقدم التصاميم القائمة على التوسع (convolutional) بديلاً أكثر كفاءة، لكنها تفتقر إلى القدرة على نمذجة الاعتماديات طويلة المدى. ولتحقيق أفضل ما في كلا النهجين، تقدم هذه الدراسة نموذج Video-FocalNet، وهو معمارية فعّالة وكفؤة لتمييز الفيديو، تُنمذج كل من السياق المحلي والعالمي. يعتمد Video-FocalNet على بنية تفعيل مكاني زمني مركزي (spatio-temporal focal modulation)، التي تعيد ترتيب خطوات التفاعل والتجميع في الانتباه الذاتي لتحقيق كفاءة أفضل. علاوة على ذلك، يتم تنفيذ كلا الخطوتين — التجميع والتفاعل — باستخدام عمليات توسع كفؤة وضرب عناصرية (element-wise multiplication)، وهي أكثر كفاءة من حيث الحساب مقارنةً ببدائلها في الانتباه الذاتي بالنسبة لتمثيلات الفيديو. وقد قمنا باستكشاف واسع لمساحة التصميم الخاصة بنمذجة السياق المكاني الزمني القائمة على التفعيل المركزي، وبيّنّا أن تصميم التشفير المتوازٍ المكاني والزمني هو الخيار الأمثل. تُظهر نماذج Video-FocalNet أداءً متميزًا مقارنةً بالنماذج المُعتمدة على ترانسفورمر الحالية في مجال تمييز الفيديو، على خمسة مجموعات بيانات كبيرة (Kinetics-400، Kinetics-600، SS-v2، Diving-48، وActivityNet-1.3)، وبتكلفة حسابية أقل. تم إصدار الكود والنماذج الخاصة بنا على الرابط التالي: https://github.com/TalalWasim/Video-FocalNets.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp