HyperAIHyperAI
منذ 17 أيام

MHFormer: محول متعدد الفرضيات للتقدير الثلاثي الأبعاد للوضعية البشرية

Wenhao Li, Hong Liu, Hao Tang, Pichao Wang, Luc Van Gool
MHFormer: محول متعدد الفرضيات للتقدير الثلاثي الأبعاد للوضعية البشرية
الملخص

تقدير وضعيات الإنسان الثلاثية الأبعاد من مقاطع فيديو أحادية (Monocular Videos) يُعد مهمة صعبة نظرًا لوجود غموض في العمق والاختباء الذاتي. تعتمد معظم الدراسات الحالية على استغلال العلاقات المكانية والزمنية لحل هذين المشكلين. ومع ذلك، تتجاهل هذه الدراسات حقيقة أن هذه المهمة تمثل مشكلة عكسية (Inverse Problem) حيث توجد حلول ممكنة متعددة (أي فرضيات). لمعالجة هذه القيود، نقترح نموذجًا يُدعى Transformer متعدد الفرضيات (MHFormer) الذي يتعلم تمثيلات مكانية-زمنية لعدة فرضيات واقعية لوضعيات الجسم. لتمثيل العلاقات بين الفرضيات المتعددة وبناء علاقات قوية بين ميزات الفرضيات المختلفة، نقسم المهمة إلى ثلاث مراحل: (1) إنشاء تمثيلات أولية متعددة للفروض؛ (2) نمذجة الاتصال الداخلي بين الفرضيات، ودمج الفرضيات المتعددة إلى تمثيل مُتَّفق واحد، ثم تقسيمه إلى عدة فرضيات مُتباينة؛ (3) تعلم الاتصال بين الفرضيات المختلفة ودمج ميزات الفرضيات المتعددة لاستخلاص الوضعية الثلاثية الأبعاد النهائية. من خلال هذه العمليات، يتم تعزيز التمثيل النهائي، ويصبح التمثيل الناتج أكثر دقة بشكل ملحوظ. أظهرت التجارب الواسعة أن نموذج MHFormer يحقق نتائج متميزة على مجموعتي بيانات صعبتين: Human3.6M وMPI-INF-3DHP. وبلا استخدام تقنيات إضافية (bells and whistles)، تفوق أداء النموذج على أفضل نتيجة سابقة بنسبة 3% على مجموعة بيانات Human3.6M. يمكن الوصول إلى الكود والنموذج عبر الرابط التالي: \url{https://github.com/Vegetebird/MHFormer}.

MHFormer: محول متعدد الفرضيات للتقدير الثلاثي الأبعاد للوضعية البشرية | أحدث الأوراق البحثية | HyperAI