فصل و إعادة توصيل التمثيل الزماني المكاني لتمييز الحركة المستند إلى RGB-D

يُشير فصل التمثيل الزماني المكاني إلى تفكيك الميزات المكانية والزمنية إلى عوامل غير مرتبطة بالأبعاد. وعلى الرغم من أن الطرق السابقة القائمة على بيانات RGB-D في التعرف على الحركة قد حققت أداءً واعدًا من خلال التمثيل الزماني المكاني متعدد الأنواع المتشابك بشكل وثيق، إلا أنها ما زالت تعاني من (أ) صعوبة في التحسين في ظل ظروف البيانات الصغيرة ناتجة عن النمذجة المتشابكة بشكل وثيق بين الزمن والمكان؛ (ب) تكرار المعلومات، حيث تحتوي عادةً على كميات كبيرة من المعلومات الحدية التي تكون ضعيفة الصلة بالتصنيف؛ (ج) تفاعل منخفض بين المعلومات الزمانية المكانية متعددة الأنواع الناتج عن دمج متأخر غير كافٍ. ولتخفيف هذه العيوب، نقترح فصل تمثيل الزمان المكاني وإعادة تجميعه في التعرف على الحركة القائم على بيانات RGB-D. وبشكل محدد، نُفَكِّك مهمة تعلم التمثيل الزماني المكاني إلى ثلاث مهام فرعية: (1) تعلم ميزات عالية الجودة وغير مرتبطة بالأبعاد من خلال شبكة نمذجة مكانية وزمنية منفصلة؛ (2) إعادة تجميع التمثيلات المنفصلة لبناء علاقة زمنية مكانية أقوى؛ (3) إدخال آلية دمج خلفي تكيفية بين الأنواع (CAPF) لالتقاط المعلومات الزمانية المكانية بين الأنواع من بيانات RGB-D. ويؤدي الجمع السلس لهذه التصاميم الجديدة إلى تشكيل تمثيل زماني مكاني قوي، ويحقق أداءً أفضل من الطرق الرائدة في مجالها على أربع مجموعات بيانات عامة للحركة. يمكن الوصول إلى الكود الخاص بنا عبر الرابط: https://github.com/damo-cv/MotionRGBD.