Command Palette
Search for a command to run...
ActionVLAD: تعلّم التجميع المكاني الزمني لتصنيف الحركات
ActionVLAD: تعلّم التجميع المكاني الزمني لتصنيف الحركات
Girdhar Rohit Ramanan Deva Gupta Abhinav Sivic Josef Russell Bryan
الملخص
في هذا العمل، نُقدِّم تمثيلًا جديدًا للفيديو لتصنيف الأفعال، يقوم بجمع الميزات التلافيفية المحلية عبر كامل المجال الزماني-المكاني للفيديو. ونحقق ذلك من خلال دمج شبكات التدفق الثنائي الحديثة جدًا مع آلية تجميع ميزات زمانية-مكانية قابلة للتعلم. ويُعدّ البنية الناتجة قابلة للتدريب من الطرفين إلى الطرفين (end-to-end) لتصنيف الفيديو بالكامل. ونُجري دراسةً لمختلف الاستراتيجيات المتعلقة بعملية التجميع عبر الفضاء والزمن، بالإضافة إلى دمج الإشارات من التدفقات المختلفة. ونجد أن: (أ) من المهم التجميع المشترك عبر الفضاء والزمن، ولكن (ب) تُفضَّل تجميع تدفقي الشكل والحركة في تمثيلين منفصلين. وأخيرًا، نُظهر أن تمثيلنا يتفوق على البنية الأساسية ذات التدفق الثنائي بمقدار كبير (بمعدل 13% نسبيًا)، كما يتفوق على غيرها من النماذج الأساسية المماثلة في معايير تصنيف الفيديو HMDB51 وUCF101 وCharades.