التعلم عبر الوسائط مع الانتباه القابل للتشوه ثلاثي الأبعاد للتعرف على الحركات

يُعد التحدي الرئيسي في التعرف على الحركات القائمة على الرؤية هو دمج السمات الزمانية والمكانية ذات الوسائط المتنوعة (التي تصل إلى اثنين أو أكثر) في سمة واحدة. في هذه الدراسة، نقترح نموذجًا جديدًا للتحويلة ثلاثية الأبعاد القابلة للانحناء (3D Deformable Transformer) للتنبؤ بالحركات، يمتلك مجالات استقبال زمانية-مكانية تكيفية وآلية تعلم عبر الوسائط. يتكون نموذج التحويلة ثلاثية الأبعاد القابلة للانحناء من ثلاث وحدات انتباه: القدرة على الانحناء ثلاثية الأبعاد، وانتباه التوسع المكاني المشترك، وانتباه التوسع الزمني. تُدخل حالتان عبر الوسائط (cross-modal tokens) إلى وحدة الانتباه ثلاثية الأبعاد القابلة للانحناء لتكوين حالة انتباه متقاطعة (cross-attention token) تعكس الترابط الزماني-المكاني. يُطبَّق انتباه التوسع المكاني المشترك لدمج انتباه السمات المكانية مع سمات الوضع (pose tokens). أما انتباه التوسع الزمني، فيقلل من عدد الحالات المدخلة في وحدة الانتباه بمرور الزمن، ويُمكّن من تعلم التعبير الزمني دون الحاجة إلى استخدام جميع الحالات في آن واحد. تكرر التحويلة القابلة للانحناء L مرة، ثم تُدمج الحالة المتقاطعة الأخيرة لغرض التصنيف. تم اختبار النموذج المقترح على مجموعات بيانات NTU60 وNTU120 وFineGYM وPennAction، وأظهر أداءً أفضل من أو مماثلاً للأساليب المتطورة المُدرَّبة مسبقًا، حتى دون استخدام عملية التدريب المسبق. علاوة على ذلك، من خلال تصور العقد المهمة والارتباطات أثناء التعرف على الحركات باستخدام انتباه العقد المكانية وانتباه التوسع الزمني، يُقدَّم احتمال تحقيق إمكانية تفسيرية (explainable potential) في التعرف على الحركات.