HyperAIHyperAI
منذ 2 أشهر

شبكات التوافد الثنائية للتمييز بين الأفعال في الفيديوهات

Karen Simonyan; Andrew Zisserman
شبكات التوافد الثنائية للتمييز بين الأفعال في الفيديوهات
الملخص

نقوم بدراسة هياكل الشبكات العصبية العميقة التلافيفية (ConvNets) التي تم تدريبها بشكل تمييزي للاعتراف بالأفعال في الفيديو. التحدي يكمن في التقاط المعلومات المكملة حول المظهر من الإطارات الثابتة والحركة بين الإطارات. نهدف أيضًا إلى تعميم أفضل الخصائص المصممة يدويًا ضمن إطار تعلم موجه بالبيانات.مساهمتنا ثلاثية الأوجه. أولاً، نقترح هيكلاً ثنائي التيار للشبكة العصبية التلافيفية يدمج شبكات فضائية وزمانية. ثانياً، نثبت أن شبكة عصبية تلافيفية تم تدريبها على الجريان البصري الكثيف متعدد الإطارات قادرة على تحقيق أداء جيد للغاية رغم وجود بيانات تدريب محدودة. أخيراً، نوضح أن التعلم متعدد المهام، عندما يتم تطبيقه على مجموعتين مختلفتين من بيانات تصنيف الأفعال، يمكن استخدامه لزيادة كمية البيانات التدريبية وتحسين الأداء في كلتا المجموعتين.تم تدريب وتقدير هيكليتنا على مقاييس الفيديو القياسية لأفعال UCF-101 وHMDB-51، حيث تكون تنافسية مع أفضل التقنيات الحالية. كما أنها تتفوق بفارق كبير على المحاولات السابقة لاستخدام الشبكات العميقة لتصنيف الفيديو.

شبكات التوافد الثنائية للتمييز بين الأفعال في الفيديوهات | أحدث الأوراق البحثية | HyperAI