HyperAIHyperAI
منذ 2 أشهر

تقدير وضع الإنسان ثلاثي الأبعاد باستخدام متحولات المكان والزمان

Zheng, Ce ; Zhu, Sijie ; Mendieta, Matias ; Yang, Taojiannan ; Chen, Chen ; Ding, Zhengming
تقدير وضع الإنسان ثلاثي الأبعاد باستخدام متحولات المكان والزمان
الملخص

قد أصبحت هياكل الترانسفورمر (Transformer) النموذج المفضل في معالجة اللغات الطبيعية، وهي الآن تُدخل إلى مهام رؤية الحاسوب مثل تصنيف الصور، وتحديد الأشياء، والتقسيم الدلالي. ومع ذلك، في مجال تقدير الوضع البشري (Human Pose Estimation)، لا تزال الهياكل التلافيفية (Convolutional) تحتفظ بالسيطرة. في هذا العمل، نقدم PoseFormer، وهو نهج يعتمد بشكل كامل على الترانسفورمر لتقدير الوضع البشري ثلاثي الأبعاد في مقاطع الفيديو دون استخدام أي هياكل تلافيفية. مستوحى من التطورات الحديثة في الترانسفورمر الرؤية (Vision Transformers)، صممنا هيكلًا مكانيًا-زمانيًا للترانسفورمر لنمذجة العلاقات بين المفاصل البشرية داخل كل إطار بشكل شامل وكذلك الارتباطات الزمنية عبر الإطارات، ثم إخراج وضع بشري ثلاثي الأبعاد دقيق للإطار المركزي. قمنا بتقييم طريقتنا كميًا وكيفيًا على قاعدتي بيانات شهيرتين ومعياريتين: Human3.6M و MPI-INF-3DHP. أظهرت التجارب الواسعة أن PoseFormer يحقق أداءً متفوقًا على كلا القاعدتين. يمكن الحصول على الكود من الرابط \url{https://github.com/zczcwh/PoseFormer}