HyperAIHyperAI

Command Palette

Search for a command to run...

ActionVLAD: تعلّم التجميع المكاني الزمني لتصنيف الحركات

Girdhar Rohit Ramanan Deva Gupta Abhinav Sivic Josef Russell Bryan

الملخص

في هذا العمل، نُقدِّم تمثيلًا جديدًا للفيديو لتصنيف الأفعال، يقوم بجمع الميزات التلافيفية المحلية عبر كامل المجال الزماني-المكاني للفيديو. ونحقق ذلك من خلال دمج شبكات التدفق الثنائي الحديثة جدًا مع آلية تجميع ميزات زمانية-مكانية قابلة للتعلم. ويُعدّ البنية الناتجة قابلة للتدريب من الطرفين إلى الطرفين (end-to-end) لتصنيف الفيديو بالكامل. ونُجري دراسةً لمختلف الاستراتيجيات المتعلقة بعملية التجميع عبر الفضاء والزمن، بالإضافة إلى دمج الإشارات من التدفقات المختلفة. ونجد أن: (أ) من المهم التجميع المشترك عبر الفضاء والزمن، ولكن (ب) تُفضَّل تجميع تدفقي الشكل والحركة في تمثيلين منفصلين. وأخيرًا، نُظهر أن تمثيلنا يتفوق على البنية الأساسية ذات التدفق الثنائي بمقدار كبير (بمعدل 13% نسبيًا)، كما يتفوق على غيرها من النماذج الأساسية المماثلة في معايير تصنيف الفيديو HMDB51 وUCF101 وCharades.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
ActionVLAD: تعلّم التجميع المكاني الزمني لتصنيف الحركات | مستندات | HyperAI