HyperAIHyperAI

Command Palette

Search for a command to run...

وحدة الحركة ذات المقياس المتعدد للتعرف على الإجراءات في الفيديو

Yu-Chee Tseng Huai-Wei Peng

الملخص

بسبب الوقت الطويل المطلوب لحساب تدفق بصري (optical flow)، اقترح العديد من الدراسات الحديثة استخدام عملية الارتباط (correlation operation) كبديل لاستخراج ميزات الحركة. وعلى الرغم من أن استخدام عمليات الارتباط يُظهر تحسينًا ملحوظًا مع استهلاك ضئيل لعدد العمليات الحسابية (FLOPs)، فإنه يُضيف تأخيرًا أكبر بكثير لكل FLOP مقارنةً بعمليات الترسيب (convolution)، ويؤدي إلى زيادة ملحوظة في التأخير عند استخدام بقع بحث أكبر. ومع ذلك، فإن تقليل حجم بقعة البحث في عملية الارتباط يُعد مصيرًا محتومًا لانخفاض الأداء، نظرًا لعجزها عن التقاط الانزياحات الكبيرة. في هذا البحث، نقترح وحدة فعّالة وذات تأخير منخفض تُسمى وحدة الحركة متعددة المقياس والواعية بالحركة (Multi-Scale Motion-Aware، MSMA). تعتمد هذه الوحدة على استخدام بقع بحث أصغر عند مقاييس مختلفة لاستخلاص ميزات الحركة بشكل فعّال من الانزياحات الكبيرة. يمكن تركيب هذه الوحدة بسهولة على مختلف الهياكل العصبية العميقة (CNN backbones) وتعمل بشكل جيد في التعميم. عند تركيبها على نموذج TSM ResNet-50، تُضيف الوحدة MSMA تأخيرًا إضافيًا قدره حوالي 17.6% على وحدة معالجة الرسومات NVIDIA Tesla V100، لكنها تحقق أداءً متفوقًا على مستوى الحالة الحالية (state-of-the-art) في مجموعتي بيانات Something-Something V1 وV2، وDiving-48.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
وحدة الحركة ذات المقياس المتعدد للتعرف على الإجراءات في الفيديو | مستندات | HyperAI