منذ 2 أشهر
ActionVLAD: تعلم التجميع المكاني-الزماني لتصنيف الأفعال
Girdhar, Rohit ; Ramanan, Deva ; Gupta, Abhinav ; Sivic, Josef ; Russell, Bryan

الملخص
في هذا العمل، نقدم تمثيلًا فيديويًا جديدًا لتصنيف الأفعال يجمع الخصائص التلافيفية المحلية عبر المدى المكاني-زماني الكامل للفيديو. نقوم بذلك من خلال دمج شبكات التيارين المتقدمة مع تجميع الخصائص المكاني-زمانية القابلة للتعلم. النتيجة هي هندسة قابلة للتدريب من البداية إلى النهاية لتصنيف الفيديو كاملاً.ندرس استراتيجيات مختلفة لتجميع البيانات عبر المساحة والزمان ودمج الإشارات من التيارين المختلفين. نجد أن: (i) من المهم تجميع البيانات بشكل مشترك عبر المساحة والزمان، ولكن (ii) يجب جمع خصائص الشكل والمovement في تمثيلات منفصلة لكل منها.أخيرًا، نوضح أن تمثيلنا يتفوق على هندسة التيارين الأساسية بمقدار كبير (13% نسبة مئوية نسبية) كما يتفوق على خطوط الأساس الأخرى ذات الهياكل الأساسية المماثلة في مقاييس تصنيف الفيديو HMDB51 وUCF101 وCharades.