HyperAIHyperAI
منذ 17 أيام

Gate-Shift-Fuse لتمييز الحركات في الفيديو

Swathikiran Sudhakaran, Sergio Escalera, Oswald Lanz
Gate-Shift-Fuse لتمييز الحركات في الفيديو
الملخص

تُعدّ الشبكات العصبية التلافيفية (Convolutional Neural Networks) النموذج الافتراضي لتمييز الصور. ومع ذلك، لم تحقق الشبكات التلافيفية ثلاثية الأبعاد (3D CNNs)، التي تمثل التمديد المباشر للشبكات الثنائية الأبعاد (2D CNNs) لتمييز الفيديو، نفس المستوى من النجاح في معايير التمييز القياسية للإجراءات. إحدى الأسباب الرئيسية في انخفاض أداء الشبكات ثلاثية الأبعاد تكمن في التعقيد الحسابي المتزايد، الذي يتطلب مجموعات بيانات مُصنّفة على نطاق واسع لتدريب هذه الشبكات على نطاق واسع. وقد تم اقتراح تقنيات تحليل نواة ثلاثية الأبعاد (3D kernel factorization) لتقليل هذا التعقيد. لكن الطرق الحالية لتحليل النواة تتبع تقنيات مصممة يدويًا وثابتة بشكل صارم. في هذه الورقة، نقترح GSF (Gate-Shift-Fuse)، وحدة استخراج ميزات فضائية-زمنية جديدة، والتي تتحكم في التفاعلات في عملية التحليل الفضائي-الزمني، وتعلّم توجيه الميزات بشكل تكيفي عبر الزمن، ودمجها بطريقة تعتمد على البيانات. تعتمد GSF على آلية التحكم المجموعة في الاتجاهات الفضائية (grouped spatial gating) لتحليل المتجهات المدخلة، وعلى ترجيح القنوات (channel weighting) لدمج المتجهات المُحللة. يمكن دمج GSF في الشبكات الثنائية الأبعاد الحالية لتحويلها إلى وحدة فعّالة وذات أداء عالٍ لاستخراج الميزات الفضائية-الزمنية، مع تكاليف معلمات وحسابية ضئيلة جدًا. أجرينا تحليلًا واسعًا لـ GSF باستخدام عائلتين شهيرتين من الشبكات الثنائية الأبعاد، وحققنا أداءً يُعدّ من أفضل الأداء في المجال أو أداءً تنافسيًا على خمسة معايير قياسية لتمييز الإجراءات.