XFormer: التقاط ثلاثي الأبعاد للجسم من منظور واحد بسرعة ودقة

نقدّم XFormer، وهي طريقة جديدة لاستخراج الشكل البشري والحركة، تحقق أداءً في الوقت الفعلي على وحدات المعالجة المركزية المستهلكة، باستخدام صور مفردة فقط كمدخلات. يتكوّن المعمارية المقترحة من فرعين: فرع نقاط المفتاح (keypoint branch) الذي يُقدّر رؤوس الشكل البشري ثلاثي الأبعاد بناءً على نقاط المفتاح ثنائية الأبعاد، وفرع الصورة (image branch) الذي يُقدّم التنبؤات مباشرةً من ميزات صور RGB. وتقع في قلب طريقتنا كتلة تحويلية عبر الوسائط (cross-modal transformer block)، التي تسمح بتدفق المعلومات بين هذين الفرعين من خلال نمذجة الانتباه بين إحداثيات نقاط المفتاح ثنائية الأبعاد وسمات الفضاء في الصورة. وقد صُمّمت المعمارية بذكاء، ما يمكّننا من التدريب على أنواع مختلفة من المجموعات البيانات، بما في ذلك الصور ذات التسميات ثنائية وثلاثية الأبعاد، والصور ذات التسميات الوهمية ثلاثية الأبعاد (3D pseudo labels)، وبيانات التقاط الحركة التي لا ترتبط بها صور. وهذا يُحسّن بشكل فعّال من دقة النظام وقدرته على التعميم. وبنيت على هيكل خلفي خفيف الوزن (MobileNetV3)، تعمل طريقتنا بسرعة فائقة (أكثر من 30 إطارًا في الثانية على نواة معالجة مركزية واحدة) مع الحفاظ على دقة تنافسية. علاوةً على ذلك، وباستخدام هيكل خلفي HRNet، تُقدّم XFormer أداءً من الطراز الرائد (state-of-the-art) على مجموعتي بيانات Human3.6 و3DPW.