تقدير وضع الإنسان الثلاثي الأبعاد باستخدام انتباه عابر مكاني-زمني

أظهرت الحلول القائمة على المحولات (transformers) مؤخرًا نجاحًا كبيرًا في تقدير وضعية الإنسان ثلاثية الأبعاد. ومع ذلك، فإن حساب مصفوفة الترابط بين المفاصل يرتفع بشكل تربيعي مع زيادة عدد المفاصل، مما يشكل عيبًا جوهريًا، وخاصة في تقدير الوضعية ضمن تسلسل فيديو، حيث يُطلب الترابط المكاني-الزماني الذي يمتد عبر الفيديو بأكمله. في هذه الورقة، نعالج هذه المشكلة من خلال تفكيك تعلم الترابط إلى مكونات مكاني وزماني، ونقدّم كتلة انتباه متقاطعة مكانيًا-زمانيًا جديدة (STC) مبتكرة. من الناحية الفنية، تقوم كتلة STC أولاً بقسمة الميزة المدخلة إلى جزأين متساويين على طول البُعد القناتي (channel dimension)، ثم تُطبّق الانتباه المكاني والزمني بشكل منفصل على كل جزء. بعد ذلك، تُمثّل التفاعلات بين المفاصل في إطار متساوٍ، وبين المفاصل التي تتبع نفس المسار الزمني في آنٍ واحد من خلال دمج مخرجات طبقات الانتباه. بناءً على هذا الأساس، نُصمم نموذج STCFormer من خلال تجميع عدة كتل STC، ونُدمج معه نوعًا جديدًا من التضمين المكاني-الزماني المُعزّز بالبنية (SPE) لمراعاة البنية الهيكلية للجسم البشري. يتكوّن دالة التضمين من مكونين: تحدّد التحويل المكاني-الزماني حول المفاصل المجاورة لالتقاط البنية المحلية، وتضمين مُدرك للجزء (part-aware embedding) لتحديد الجزء الذي ينتمي إليه كل مفصل. أجرينا تجارب واسعة على مجموعتي بيانات Human3.6M وMPI-INF-3DHP، وأظهرت النتائج تفوقًا ملحوظًا مقارنةً بأفضل الطرق المنشورة حاليًا. وبشكل أكثر إثارة، حقق نموذج STCFormer أفضل أداء منشور حتى الآن: خطأ P1 قدره 40.5 مم على مجموعة بيانات Human3.6M الصعبة.