HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 4 أشهر

مَارس: تدفق الصورة الملونة المُعزّز بالحركة للتعرف على الحركات

{ Cordelia Schmid Karteek Alahari Philippe Weinzaepfel Nieves Crasto}

مَارس: تدفق الصورة الملونة المُعزّز بالحركة للتعرف على الحركات

الملخص

تتألف معظم الطرق المتطورة حديثًا لتمييز الحركات من بنية ثنائية التدفق تتضمن تبليغات ثلاثية الأبعاد: تدفق ظاهري لإطارات RGB، وتدفق حركي لإطارات التدفق البصري. وعلى الرغم من أن دمج التدفق مع RGB يحسن الأداء، إلا أن تكلفة حساب التدفق البصري الدقيق مرتفعة، مما يؤدي إلى زيادة زمن التأخير في تمييز الحركات. وهذا يحد من استخدام النماذج الثنائية التدفق في التطبيقات الواقعية التي تتطلب زمن تأخير منخفض. في هذه الورقة، نقدم طريقتين للتعلم لتدريب شبكة 3D CNN قياسية تعمل على إطارات RGB، بحيث تقلد تدفق الحركة، وبالتالي تتجنب حساب التدفق أثناء الاختبار. أولاً، من خلال تقليل خسارة تعتمد على الميزات مقارنةً بتدفق التدفق، نُظهر أن الشبكة تعيد إنتاج تدفق الحركة بدقة عالية. ثانيًا، لاستغلال المعلومات الظاهرة والحركة بشكل فعّال، نُدرّب الشبكة باستخدام مزيج خطي من خسارة الميزات وخسارة التردد المتقاطع القياسية لتمييز الحركات. ونُسمّي التدفق المدرّب باستخدام هذه الخسارة المُجمعة بـ "تدفق RGB المُعزز بالحركة" (MARS). وبكونه تدفقًا وحيدًا، يُظهر MARS أداءً أفضل من تدفق RGB أو تدفق التدفق وحدهما، مثلاً بتحقيق دقة 72.7% على مجموعة بيانات Kinetics مقابل 72.0% و65.6% لتدفق RGB وتدفق التدفق على التوالي.

المعايير القياسية

معيار قياسيالمنهجيةالمقاييس
action-classification-on-kinetics-400MARS+RGB+Flow (64 frames)
Acc@1: 74.9
action-classification-on-kinetics-400MARS+RGB+Flow (16 frames)
Acc@1: 68.9
action-classification-on-minikineticsMARS+RGB+Flow (16 frames)
Top-1 Accuracy: 73.5
action-recognition-in-videos-on-hmdb-51MARS+RGB+FLow (64 frames, Kinetics pretrained)
Average accuracy of 3 splits: 80.9
action-recognition-in-videos-on-something-1MARS+RGB+Flow (16 frames, Kinetics pretrained)
Top 1 Accuracy: 40.4
action-recognition-in-videos-on-something-1MARS+RGB+Flow (64 frames, Kinetics pretrained)
Top 1 Accuracy: 53.0
action-recognition-in-videos-on-ucf101MARS+RGB+Flow (64 frames, Kinetics pretrained)
3-fold Accuracy: 97.8
action-recognition-in-videos-on-ucf101MARS+RGB+Flow (16 frames)
3-fold Accuracy: 95.8

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
مَارس: تدفق الصورة الملونة المُعزّز بالحركة للتعرف على الحركات | الأوراق البحثية | HyperAI