تشفير صوري مكاني زمني مُحسَّن للتعرف على الأنشطة البشرية عبر الإنترنت
يمكن اعتبار التعرف على النشاط البشري (HAR) المستند إلى بيانات الاستشعار مشكلة تصنيف متسلسل زمني، حيث يكمن التحدي في التعامل مع الاعتماديات المكانية والزمنية مع التركيز على التغيرات الأكثر صلة في البيانات. ويمكن تحقيق ذلك باستخدام بيانات الهيكل ثلاثي الأبعاد المستخرجة من كاميرا RGB+D. في هذا العمل، نقترح تحسين ترميز الصورة المكانية-الزمنية للهيكل ثلاثي الأبعاد المُلتقط بواسطة مستشعر Kinect، من خلال دراسة مفهوم "طاقة الحركة" الذي يركّز بشكل رئيسي على المفاصل في الهيكل التي تُستخدم بشكل أكبر في الأداء. يمكّن هذا الترميز من تحقيق تمييز أفضل للكشف عن الأنشطة في الوقت الفعلي من خلال التركيز على الأجزاء الأكثر أهمية في الحركات. يعرض المقال هذا الترميز الجديد وتطبيقاته في التعرف على النشاط البشري باستخدام نموذج تعلم عميق تم تدريبه على بيانات الهيكل ثلاثي الأبعاد المُرمَّزة. ولتحقيق ذلك، اقترحنا استكشاف قابلية نقل المعرفة (Transferability) لعدة شبكات عصبية تلافيفية مُدرَّبة مسبقًا (CNNs) متوفرة في مكتبة Keras. ويُظهر المقال تحسينًا ملحوظًا في دقة التعلم مقارنةً بأحدث النتائج المنشورة في المجال.