HyperAIHyperAI
منذ 2 أشهر

EgoPoseFormer: خط أساس بسيط لتقدير الوضع ثلاثي الأبعاد للإنسان من وجهة نظر الذات باستخدام الصور النمطية

Yang, Chenhongyi ; Tkach, Anastasia ; Hampali, Shreyas ; Zhang, Linguang ; Crowley, Elliot J. ; Keskin, Cem
EgoPoseFormer: خط أساس بسيط لتقدير الوضع ثلاثي الأبعاد للإنسان من وجهة نظر الذات باستخدام الصور النمطية
الملخص

نقدم EgoPoseFormer، وهو نموذج بسيط ومعتمد على الترانسفورمر لتقدير وضعية الجسم البشرية من وجهة نظر الذات في الصور النمطية (الستيريو). التحدي الرئيسي في تقدير وضعية الجسم من وجهة نظر الذات يتمثل في التغلب على عدم ظهور المفاصل، والذي ينتج عن الاختفاء الذاتي أو مجال رؤية محدود (FOV) للكاميرات المرتبكة على الرأس. تتجاوز طريقتنا هذا التحدي من خلال دمج نموذج تقدير الوضعية بمراحلين:في المرحلة الأولى، يستخدم النموذج المعلومات العالمية لتقدير موقع كل مفصل بشكل خشن. ثم في المرحلة الثانية، يستخدم ترانسفورمر بنمط DETR لتكرار تقدير المواقع الخشنة من خلال استغلال الخصائص البصرية النمطية الدقيقة.بالإضافة إلى ذلك، نقدم عملية انتباه ستيريوي مرنة (Deformable Stereo Attention) تمكّن ترانسفورمر الخاص بنا من معالجة الخصائص متعددة الآراء بكفاءة، مما يسمح له بتقعيد كل مفصل بدقة في العالم ثلاثي الأبعاد. قمنا بتقييم طريقتنا على مجموعة بيانات UnrealEgo النمطية وأظهرنا أنها تتفوق بشكل كبير على الأساليب السابقة مع الحفاظ على الكفاءة الحسابية: حيث تحسن MPJPE بمقدار 27.4 ملم (تحسين بنسبة 45%) باستخدام فقط 7.9% من معلمات النموذج و13.1% من العمليات العائمة (FLOPs) مقارنة بأحدث التقنيات.وبشكل مفاجئ، وجدنا أنه حتى شبكة اقتراح الوضعية في المرحلة الأولى يمكنها تحقيق أداء أفضل مقارنة بالأساليب السابقة عند استخدام إعدادات التدريب المناسبة. كما أظهرنا أن طريقتنا يمكن توسيعها بسلاسة إلى الإعداد الأحادي العين، مما يجعلها تحقق أداءً يوازي أحدث التقنيات على مجموعة بيانات SceneEgo: حيث تحسن MPJPE بمقدار 25.5 ملم (تحسين بنسبة 21%) باستخدام فقط 60.7% من معلمات النموذج و36.4% من العمليات العائمة (FLOPs) مقارنة بأفضل الطُرق الموجودة حاليًا.الرمز البرمجي متاح عبر الرابط التالي:https://github.com/ChenhongyiYang/egoposeformer .