تعلُّم شبكة رسم بياني زماني-مكاني متعددة الحدود الدقيقة للتمييز عن الحركات القائمة على الهيكل العظمي

يظل التعرف على الحركات القائمة على الهيكل العظمي تحديًا رئيسيًا في فهم المشاهد المتمحورة حول الإنسان نظرًا للعديد من المستويات الدقيقة والتنوع الكبير في حركات الإنسان. تستخدم الطرق الحالية عادة تمثيلًا عصبيًا واحدًا لنمط الحركة المختلفة، وهو ما يواجه صعوبة في التقاط فئات الحركات الدقيقة مع وجود بيانات تدريب محدودة. ولحل المشكلات المذكورة أعلاه، نقترح شبكة رسمية فضائية-زمنية متعددة المستويات جديدة للتصنيف القائم على الهيكل العظمي، والتي تُمكّن من نمذجة أنماط الحركة العظمية على المستويين الخشن والدقيق بشكل مشترك. ولتحقيق ذلك، طوّرنا شبكة رسمية ذات رأسين مكونة من فرعين متداخلين، مما يتيح لنا استخراج الميزات على مستويين فضائيين-زمنيين بشكل فعّال وكفؤ. علاوة على ذلك، تستخدم شبكتنا استراتيجية تواصل بين الرأسين لتعزيز التمثيلات المتبادلة لكليهما. وقد أجرينا تجارب واسعة على ثلاث مجموعات بيانات كبيرة، هي NTU RGB+D 60 وNTU RGB+D 120 وKinetics-Skeleton، وحققنا أداءً من الدرجة الأولى في جميع المعايير، مما يؤكد فعالية طريقة العمل التي اقترحناها.