CrossFormer: تحويلة متقاطعة فضائية-زمنية لتقدير موضع الإنسان ثلاثي الأبعاد

يمكن التعامل مع تقدير وضع الإنسان ثلاثي الأبعاد من خلال تشفير الاعتماديات الهندسية بين أجزاء الجسم وفرض القيود الكينماتيكية. في الآونة الأخيرة، تم اعتماد نموذج المُحَوِّل (Transformer) لتشفير الاعتماديات طويلة المدى بين المفاصل في المجالات المكانية والزمنية. وعلى الرغم من التميز الذي أظهره في معالجة الاعتماديات طويلة المدى، أشارت دراسات سابقة إلى الحاجة إلى تحسين الطابع المحلي لمحولات الرؤية. في هذا الاتجاه، نقترح نموذجًا جديدًا لمحول تقدير الوضع (Pose Estimation Transformer) يتميز بتمثيلات غنية للمفاصل البشرية، وهي تمثيلات حاسمة لالتقاط التغيرات الدقيقة عبر الإطارات (أي التمثيلات بين الميزات). وبشكل خاص، يتم عبر وحدتين جديدتين للتفاعل: تفاعل المفصل المتقاطع وتفاعل الإطار المتقاطع، تشفير صريح للاعتماديات المحلية والعالمية بين المفاصل. وقد حقق التصميم المقترح أداءً متميزًا على أعلى المستويات في مجموعتي بيانات شهيرتين لتقدير وضع الإنسان ثلاثي الأبعاد، وهما Human3.6 وMPI-INF-3DHP. وبشكل خاص، يُحسّن أسلوبنا المُقترح، المُسمى CrossFormer، الأداء بنسبة 0.9% و0.3% مقارنة بالنموذج الأقرب له، أي PoseFormer، باستخدام الإطارات المكتشفة ثنائية الأبعاد والإعدادات ذات القيمة الحقيقية (ground-truth) على التوالي.