تقدير الوضع البشري بكفاءة عبر سحابة نقاط الحدث ثلاثية الأبعاد

التقدير المكاني للإنسان (HPE) المستند إلى صور RGB قد شهد تطورًا سريعًا بفضل التعلم العميق. ومع ذلك، لم يتم دراسة تقدير HPE القائم على الأحداث بشكل كامل، مما يترك إمكانات كبيرة للاستخدام في المشاهد المتطرفة وفي الظروف التي تتطلب كفاءة عالية. في هذا البحث، نحن أول من يقوم بتقدير وضع الإنسان ثنائي الأبعاد مباشرة من السحابة النقطية ثلاثية الأبعاد للأحداث. نقترح تمثيلًا جديدًا للأحداث، وهو السحابة النقطية المرسومة (rasterized event point cloud)، حيث يتم تجميع الأحداث في نفس الموقع ضمن فترة زمنية قصيرة جدًا. هذا التمثيل يحافظ على الخصائص ثلاثية الأبعاد من عدة مؤشرات إحصائية ويقلل بشكل كبير من استهلاك الذاكرة وتعقيد الحسابات، وقد أثبت فعاليته في عملنا. ثم نستفيد من السحابة النقطية المرسومة كمدخل لثلاثة أنواع مختلفة من الهياكل الأساسية: PointNet، DGCNN، و Point Transformer، مع مفكرين خطيين (linear layer decoders) لتنبؤ موقع نقاط المفتاح البشرية (human keypoints). وجدنا أن PointNet حققت نتائج مشجعة بسرعة أكبر بكثير، بينما حقق Point Transformer دقة أعلى بكثير، حتى قريبة من طرق التقدير القائمة على الإطارات-الأحداث (event-frame-based methods). مجموعة شاملة من النتائج تظهر أن الطريقة المقترحة لدينا فعالة باستمرار لهذه النماذج الأساسية ثلاثية الأبعاد في تقدير وضع الإنسان القائم على الأحداث. طريقة PointNet الخاصة بنا باستخدام 2048 نقطة كمدخل حققت 82.46 ملم في MPJPE3D على مجموعة بيانات DHP19، بينما كانت زمن الاستجابة لديها فقط 12.29 مللي ثانية على منصة الحوسبة الحافة NVIDIA Jetson Xavier NX، مما يجعلها مثالية للكشف الفوري باستخدام الكاميرات القائمة على الأحداث. الرمز متاح على https://github.com/MasterHow/EventPointPose.