HyperAIHyperAI

Command Palette

Search for a command to run...

STM: الترميز المكاني والزماني والحركي لتمييز الأفعال

Boyuan Jiang MengMeng Wang Weihao Gan Wei Wu Junjie Yan

الملخص

الميزات المكانية-الزمانية وميزات الحركة هي معلومات مكملة وحيوية لتمييز الأنشطة في الفيديو. تستخدم الطرق الرائدة حديثًا تيار شبكة عصبية اصطناعية ثلاثية الأبعاد (3D CNN) لتعلم الميزات المكانية-الزمانية وتيار آخر للتدفق (flow stream) لتعلم ميزات الحركة. في هذا البحث، نهدف إلى ترميز هذه الميزتين بكفاءة ضمن إطار ثنائي الأبعاد موحد. لتحقيق ذلك، نقترح أولاً كتلة STM، والتي تحتوي على وحدة مكانية-زمانية حسب القنوات (CSTM) لتقديم الميزات المكانية-الزمانية، ووحدة حركة حسب القنوات (CMM) لترميز ميزات الحركة بكفاءة. ثم نقوم بتعويض الكتل الباقية الأصلية في هندسة ResNet بالكتل STM لتشكيل شبكة STM بسيطة ومعتبرة من خلال إدخال تكلفة حوسبة إضافية محدودة جدًا. تُظهر التجارب الواسعة أن الشبكة STM المقترحة تتفوق على الطرق الرائدة في كل من مجموعة البيانات ذات العلاقة الزمنية (مثل Something-Something v1 & v2 و Jester) ومجموعة البيانات ذات العلاقة بالموقع (مثل Kinetics-400 و UCF-101 و HMDB-51) بفضل ترميز الميزات المكانية-الزمانية وميزات الحركة معًا.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp