LiftFormer: تقدير وضعية الإنسان ثلاثي الأبعاد باستخدام نماذج الانتباه

أصبح تقدير الموضع ثلاثي الأبعاد لمفاصل الإنسان موضوعًا مُستَقصَى على نطاق واسع في السنوات الأخيرة. وقد ركّزت الاهتمام بشكل خاص على تطوير أساليب جديدة تقوم بتحويل البيانات ثنائية الأبعاد (النقاط الأساسية) إلى ثلاثية الأبعاد، وبشكل خاص، التنبؤ بالإحداثيات النسبية للجذور المرتبطة بمفاصل الهياكل العظمية البشرية. وقد أثبتت الاتجاهات البحثية الحديثة أن كتل مشفرة المُحَوِّل (Transformer Encoder) تُجمِّع المعلومات الزمنية بشكل أكثر فعالية من الطرق السابقة. ولهذا، نقترح استخدام هذه النماذج للحصول على تنبؤات ثلاثية الأبعاد أكثر دقة من خلال الاستفادة من المعلومات الزمنية باستخدام آليات الانتباه على تسلسلات مرتبة من وضعيات الإنسان في مقاطع الفيديو.تفوق طريقة العمل لدينا باستمرار النتائج السابقة الأفضل في الأدبيات، سواء باستخدام مُحدِّدات النقاط الثنائية الأبعاد بفارق 0.3 مم (44.8 MPJPE، تحسن بنسبة 0.7٪)، أو باستخدام الإدخالات الحقيقية (Ground Truth) بفارق 2 مم (MPJPE: 31.9، تحسن بنسبة 8.4٪) على مجموعة بيانات Human3.6M. كما حققت أداءً متقدمًا على مستوى الحالة الحالية (state-of-the-art) على مجموعة بيانات HumanEva-I، بـ 10.5 P-MPJPE (انخفاض بنسبة 22.2٪). كما أن عدد المعاملات في نموذجنا قابل للتعديل بسهولة، وهو أصغر (9.5 مليون) من الطرق الحالية (16.95 مليون و11.25 مليون)، مع الحفاظ على أداء أفضل. وبالتالي، تفوق دقة نموذج رفع الموضع ثلاثي الأبعاد لدينا على غيرها من النماذج النهائية (end-to-end) أو تلك القائمة على نموذج SMPL، وتشابه أداءها مع العديد من الطرق متعددة المنظورات (multi-view).