STM: الترميز المكاني والزماني والحركي لتمييز الأفعال

الميزات المكانية-الزمانية وميزات الحركة هي معلومات مكملة وحيوية لتمييز الأنشطة في الفيديو. تستخدم الطرق الرائدة حديثًا تيار شبكة عصبية اصطناعية ثلاثية الأبعاد (3D CNN) لتعلم الميزات المكانية-الزمانية وتيار آخر للتدفق (flow stream) لتعلم ميزات الحركة. في هذا البحث، نهدف إلى ترميز هذه الميزتين بكفاءة ضمن إطار ثنائي الأبعاد موحد. لتحقيق ذلك، نقترح أولاً كتلة STM، والتي تحتوي على وحدة مكانية-زمانية حسب القنوات (CSTM) لتقديم الميزات المكانية-الزمانية، ووحدة حركة حسب القنوات (CMM) لترميز ميزات الحركة بكفاءة. ثم نقوم بتعويض الكتل الباقية الأصلية في هندسة ResNet بالكتل STM لتشكيل شبكة STM بسيطة ومعتبرة من خلال إدخال تكلفة حوسبة إضافية محدودة جدًا. تُظهر التجارب الواسعة أن الشبكة STM المقترحة تتفوق على الطرق الرائدة في كل من مجموعة البيانات ذات العلاقة الزمنية (مثل Something-Something v1 & v2 و Jester) ومجموعة البيانات ذات العلاقة بالموقع (مثل Kinetics-400 و UCF-101 و HMDB-51) بفضل ترميز الميزات المكانية-الزمانية وميزات الحركة معًا.