شبكات التويفع الثنائية المخفية لتمييز الأفعال

تحليل مقاطع الفيديو للحركات البشرية يتضمن فهم العلاقات الزمنية بين الإطارات الفيديوية. تعتمد أحدث طرق التعرف على الحركات على الأساليب التقليدية لتقدير التدفق البصري لحساب معلومات الحركة مسبقًا للشبكات العصبية الم convo�ولية (CNNs). مثل هذا النهج ذو المرحلتين يكون باهظ التكلفة من الناحية الحسابية، يتطلب تخزينًا كبيرًا، ولا يمكن تدريبه بشكل شامل من البداية إلى النهاية. في هذه الورقة البحثية، نقدم هندسة شبكة عصبية م convo�ولية جديدة تلتقط المعلومات الحركية بين الإطارات المجاورة بشكل ضمني. نسمّي نهجنا بـ "الشبكات الثنائية الخفية" لأنه يأخذ فقط الإطارات الفيديوية الخام كمدخلات ويتنبأ مباشرة بفئات الحركات دون حساب صريح للتدفق البصري. نهجنا الشامل من البداية إلى النهاية أسرع بمقدار 10 مرات من أساسيات النهج ذي المرحلتين. تظهر نتائج التجارب على أربعة قواعد بيانات تحدي التعرف على الحركات الصعبة: UCF101، HMDB51، THUMOS14 وActivityNet v1.2 أن نهجنا يتفوق بشكل كبير على أفضل الأساليب السابقة في الوقت الحقيقي.