Command Palette
Search for a command to run...
التشابكات الزمنية طويلة المدى لتمييز الأفعال
التشابكات الزمنية طويلة المدى لتمييز الأفعال
Gül Varol Ivan Laptev Cordelia Schmid
الملخص
الأفعال البشرية النموذجية تستغرق عدة ثوانٍ وتظهر بنية زمانية-مكانية مميزة. تسعى الطرق الحديثة إلى التقاط هذه البنية وتعلم تمثيلات الأفعال باستخدام الشبكات العصبية التلافيفية. ومع ذلك، يتم عادةً تعلم مثل هذه التمثيلات على مستوى عدد قليل من الإطارات الفيديوية، مما يفشل في نمذجة الأفعال بامتدادها الزمني الكامل. في هذا العمل، نتعلم تمثيلات الفيديو باستخدام الشبكات العصبية ذات التلافيف الزمنية طويلة المدى (LTC). نوضح أن نماذج LTC-CNN بامتدادات زمنية أكبر تحسن دقة تصنيف الأفعال. كما ندرس تأثير التمثيلات الأولية المختلفة، مثل قيم البكسل الفيديوية الخام وحقول المتجهات الضوئية، ونثبت أهمية تقدير الجريان الضوئي عالي الجودة لتعلم نماذج أفعال دقيقة. نبلغ عن أفضل النتائج الحالية على معيارين صعبين لتصنيف الأفعال البشرية: UCF101 (92.7%) و HMDB51 (67.2%).