دمج الميزات الحرارية والهيكلية ثلاثية الأبعاد للتعرف على الإجراءات باستخدام بيانات RGB-D

يُعد التحدي الرئيسي في التعرف على الحركات القائمة على الهيكل العظمي هو صعوبة تصنيف الحركات ذات الحركات المتشابهة والحركات المرتبطة بالأشياء. وتساعد في هذا الصدد الإشارات البصرية المستمدة من قنوات أخرى. إذ إن بيانات RGB حساسة لظروف الإضاءة، وبالتالي تكون غير قابلة للاستخدام في الظلام. ولتخفيف هذه المشكلة مع الاستفادة في الوقت نفسه من القناة البصرية، نقترح شبكة معيارية (FUSION) تجمع بين بيانات الهيكل العظمي وبيانات الأشعة تحت الحمراء. تُستخدم شبكة تلافيفية ثنائية الأبعاد (CNN) كوحدة لتحديد وضعية الجسم لاستخراج السمات من بيانات الهيكل العظمي. في المقابل، تُستخدم شبكة تلافيفية ثلاثية الأبعاد (3D CNN) كوحدة للأشعة تحت الحمراء لاستخراج الإشارات البصرية من الفيديوهات. ثم يتم دمج المتجهات السمية الناتجة من كلا الوحدتين واستغلالها معًا باستخدام شبكة متعددة الطبقات (MLP). كما أن بيانات الهيكل العظمي تُوجه الفيديوهات تحت الحمراء، من خلال توفير منطقة قطع حول الأشخاص المنفذين للحركات، مما يُعطي تأثيرًا تجريديًا بتركيز انتباه وحدة الأشعة تحت الحمراء على المنطقة المهمة. تُظهر الدراسات التحليلية أن استخدام شبكات مُدرّبة مسبقًا على مجموعات بيانات كبيرة أخرى كوحدات، إلى جانب تقنيات تكبير البيانات (Data Augmentation)، يُسهم في تحسين كبير في دقة تصنيف الحركات. كما تُثبت النتائج تأثيرًا قويًا لاستراتيجيتنا في التقليم (cropping). وقد تم تقييم طريقة عملنا على مجموعة بيانات NTU RGB+D، وهي أكبر مجموعة بيانات متاحة للتعريف بالحركات البشرية من كاميرات العمق، حيث أظهرت النتائج أداءً يُصنف ضمن الأفضل عالميًا.