الشبكة الانتباهية الرسومية الزمانية المكانية للتعرف على الإجراءات القائمة على الهيكل العظمي

من الشائع أن الطرق الحالية في تمييز الأفعال القائمة على الهيكل العظمي تركز بشكل رئيسي على التقاط الاعتماد الزمني الطويل، نظرًا لأن تسلسلات الهيكل العظمي غالبًا ما تكون طويلة (>128 إطارًا)، مما يشكل مشكلة صعبة أمام الطرق السابقة. وفي هذه الظروف، تُهمل الاعتماديات الزمنية القصيرة رسميًا، رغم أهميتها في تمييز الأفعال المشابهة. وغالبًا ما تتكون الطرق الحالية من وحدات متداخلة تشمل وحدات فضائية فقط ووحدات زمنية فقط، مما يعيق تدفق المعلومات المباشرة بين المفاصل في الإطارات المجاورة، وبالتالي تكون أقل كفاءة في التقاط الحركة القصيرة التمدد وتمييز أزواج الأفعال المشابهة. لمعالجة هذه القيود، نقترح إطارًا عامًا يُسمى STGAT، لتمثيل تدفق المعلومات عبر الفضاء والزمن معًا. ويُزوّد هذا الإطار وحدات فضائية فقط بقدرات نمذجة فضائية-زمنية لتحسين الإدراك الإقليمي. وعلى الرغم من الفعالية النظرية لـ STGAT في النمذجة الفضائية-الزمنية، نقترح ثلاث وحدات بسيطة لتقليل التكرار المكاني-الزمني المحلي للسمات، وتمكين الاستفادة الكاملة من إمكانيات STGAT، حيث (1) تضييق نطاق آلية الانتباه الذاتي، (2) توزيع أوزان ديناميكية على المفاصل عبر البُعد الزمني، و(3) فصل الحركات الدقيقة عن السمات الثابتة، على التوالي. وبصفته مُستخرجًا قويًا للسمات، يُظهر STGAT أداءً أفضل من الطرق السابقة في تمييز الأفعال المشابهة، كما يُثبت ذلك من خلال النتائج النوعية والكمية. ويحقق STGAT أداءً من الدرجة الأولى على ثلاث مجموعات بيانات كبيرة: NTU RGB+D 60، وNTU RGB+D 120، وKinetics Skeleton 400. تم إصدار الشفرة المصدرية.