HyperAIHyperAI

Command Palette

Search for a command to run...

VPN: تعلُّم تمثيل موضع الفيديو للأنشطة اليومية

Srijan Das Saurav Sharma Rui Dai Francois Bremond Monique Thonnat

الملخص

في هذه الورقة، نركّز على الجانب الزماني-المكاني في تمييز أنشطة الحياة اليومية (ADL). تمتلك أنشطة الحياة اليومية خاصيتين محددتين: (أ) أنماط زمانية-مكانية خفية، و(ب) أنماط بصرية مشابهة تتغير مع الزمن. وبالتالي، قد تبدو أنشطة الحياة اليومية متشابهة جدًا، وغالبًا ما تتطلب النظر في التفاصيل الدقيقة لتمييزها. وبما أن الشبكات العصبية التلافيفية الثلاثية الأبعاد الحديثة (3D ConvNets) تكون مفرطة في المرونة لالتقاط الأنماط البصرية الدقيقة عبر الحركة، نقترح شبكة فيديو-موضع جديدة تُسمى VPN. وتتألف VPN من مكوّنين رئيسيين: تضمين مكاني وشبكة انتباه. يُحول التضمين المكاني الأوضاع الثلاثية الأبعاد (3D poses) والمؤشرات اللونية (RGB) إلى فضاء معنوي مشترك، مما يمكّن إطار تمييز الحركات من تعلّم ميزات زمانية-مكانية أفضل باستغلال كلا المودالتين. ولتمييز الحركات المشابهة، توفر شبكة الانتباه وظيفتين: (أ) هيكل أساسي قابل للتعلم من النهاية إلى النهاية يستفيد من البنية الهيكلية للجسم البشري، و(ب) مُربِّط (coupler) يُقدّم أوزان انتباه زمانية-مكانية مشتركة عبر الفيديو. تُظهر التجارب أن VPN تتفوّق على أفضل النتائج المنشورة سابقًا في تصنيف الحركات على مجموعة بيانات كبيرة لأنشطة الإنسان: NTU-RGB+D 120، ونُسختها الأصغر NTU-RGB+D 60، بالإضافة إلى مجموعة بيانات واقعية صعبة: Toyota Smarthome، ونُسخة صغيرة من بيانات التفاعل بين الإنسان والكائن: Northwestern UCLA.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
VPN: تعلُّم تمثيل موضع الفيديو للأنشطة اليومية | مستندات | HyperAI