STEP CATFormer: نموذج انتباه متقاطع بين الأجزاء الجسمية الفعّالة المكانية-الزمنية لتمييز الحركات القائمة على الهيكل العظمي

تم استخدام الشبكات التلافيفية الرسومية (GCNs) على نطاق واسع وحققت نتائج متميزة في التعرف على الحركات القائمة على الهيكل العظمي. نعتقد أن العنصر الأساسي في التعرف على الحركات القائمة على الهيكل العظمي يتمثل في هيكل عظمي معلق ضمن الإطارات، لذا ركزنا على كيفية تعلّم الشبكات التلافيفية الرسومية لتناظر هندسي مختلف، وجمع ميزات المفاصل بشكل فعّال في الزمن الكلي والزمن المحلي. في هذا العمل، نقترح ثلاث طبقات من التلافيف الرسومية القائمة على التصنيف الحشوي (Channel-wise Topology Graph Convolution) مستندة إلى التلافيف الرسومية المُحسَّنة للتصنيف الحشوي (CTR-GCN). وعند دمج CTR-GCN مع وحدتين للاهتمام المتقاطع بين المفاصل، يمكننا التقاط ميزات الهيكل العظمي المتعلقة بالعلاقة بين الأجزاء العلوية والسفلية من الجسم، وكذلك العلاقة بين اليدين والقدمين. ثم، لالتقاط ميزات التغيرات التي تحدث في هيكل العظمي عبر الإطارات، صممنا نموذج الانتباه الزمني (Temporal Attention Transformers) لاستخراج ميزات الهيكل العظمي بشكل فعّال. ويتمكّن نموذج الانتباه الزمني من تعلّم الخصائص الزمنية لسلسلة الهيكل العظمي. وأخيرًا، نُدمج الميزات الزمنية الناتجة بمقاييس مختلفة باستخدام وحدة MLP ثم نُجري التصنيف. وقد طوّرنا شبكة تلافيفية رسومية قوية تُسمى "Spatial Temporal Effective Body-part Cross Attention Transformer"، والتي تُظهر أداءً متميزًا على مجموعتي بيانات NTU RGB+D وNTU RGB+D 120. يُمكن الاطلاع على الكود والنماذج التي طوّرناها عبر الرابط التالي: https://github.com/maclong01/STEP-CATFormer