STAR-Transformer: نموذج انتباه متقاطع فضائي-زمني لتمييز الحركات البشرية

في التعرف على الحركات، وعلى الرغم من أن دمج مقاطع الفيديو الزمنية-المكانية مع ميزات الهيكل العظمي يمكن أن يحسن أداء التعرف، إلا أن ذلك يتطلب نموذجًا منفصلًا وموازنة تمثيل الميزات لبيانات متعددة الوسائط. ولحل هذه المشكلات، نقترح نموذج STAR-Transformer (Spatio-Temporal Al cRoss Transformer)، الذي يمكنه تمثيل الميزات المتقاطعة بين الوسائط بشكل فعّال كمتجه قابل للتعرف. أولاً، يتم استخراج الإطارات المرئية من الفيديو المدخل كـ "أوسمة شبكة عالمية" (global grid tokens)، بينما يتم استخراج تسلسل الهيكل العظمي كـ "أوسمة خريطة المفاصل" (joint map tokens). ثم يتم تجميع هذه الأوسمة إلى أوسمة متعددة الفئات وإدخالها إلى نموذج STAR-Transformer. يتكون جزء الترميز (encoder) في STAR-Transformer من وحدة انتباه ذاتي كامل (FAttn) ووحدة انتباه زمنية-مكانية مزدوجة الشكل (ZAttn) مقترحة. وبالمثل، يتكون فك الترميز المستمر (decoder) من وحدة FAttn ووحدة انتباه زمنية-مكانية ثنائية (BAttn) مقترحة. ويتعلم نموذج STAR-Transformer تمثيلًا متعدد الميزات فعّالًا للخصائص الزمنية-المكانية من خلال ترتيب مناسب لأزواج وحدات FAttn وZAttn وBAttn. أظهرت النتائج التجريبية على مجموعات بيانات Penn-Action وNTU RGB+D 60 و120 تحسنًا ملموسًا في الأداء مقارنة بالطرق السابقة الأفضل في مجالها.