HyperAIHyperAI
منذ 17 أيام

دمج الصور المفردة وإشارات IMU الخفيفة لالتقاط حركة الإنسان في الزمن الحقيقي

Shaohua Pan, Qi Ma, Xinyu Yi, Weifeng Hu, Xiong Wang, Xingkang Zhou, Jijunnan Li, Feng Xu
دمج الصور المفردة وإشارات IMU الخفيفة لالتقاط حركة الإنسان في الزمن الحقيقي
الملخص

تم استخدام صور RGB أو إشارات حركية (Inertial Signals) على حدة في مهمة التقاط الحركة (Motion Capture - Mocap)، ولكن دمج هذين النوعين معًا يُعد موضوعًا جديدًا ومثيرًا للاهتمام. نحن نعتقد أن هذا الدمج متكامل ويُمكنه التغلب على الصعوبات الجوهرية الناتجة عن استخدام إدخال وحدة واحدة فقط، بما في ذلك الظلال (الإغلاق)، والإضاءة أو النسيج المتطرف، وفقدان الرؤية في التقاط الحركة البصرية، فضلًا عن الانحراف العالمي في التقاط الحركة باستخدام الوحدات الحركية (IMU). ولتحقيق هذا الهدف، نقترح طريقة تدمج بين صور مونوكولار (Monocular Images) وإشارات IMU نادرة (Sparse IMUs) لتنفيذ التقاط حركة إنسان في الوقت الفعلي. تتضمن طريقة العمل استراتيجية إحداثيات مزدوجة تُستغل بشكل كامل إشارات IMU لتحقيق أهداف مختلفة في التقاط الحركة. وبشكل محدد، إلى جانب فرع واحد يقوم بتحويل إشارات IMU إلى نظام الإحداثيات الخاص بالكاميرا لدمجها مع معلومات الصورة، هناك فرع آخر يتعلم من إشارات IMU ضمن نظام إحداثيات الجذع (Body Root Coordinate System) بهدف تحسين تقدير وضعية الجسم. علاوةً على ذلك، تم اقتراح آلية تغذية راجعة للحالة المخفية (Hidden State Feedback) لكلا الفرعين لتعويض عيوب كل منهما في الحالات القصوى للإدخال. وبالتالي، يمكن لطريقتنا التبديل بسهولة بين نوعي الإشارات أو دمجهما بطرق مختلفة حسب الحالة، لتحقيق تقاطع حركة موثوق. يمكن للجزأين المُقسَّمين أن يساعدا بعضهما البعض لتحقيق نتائج أفضل في التقاط الحركة تحت ظروف مختلفة. وتبين النتائج الكمية والكيفية أن التصميم الدقيق لآلية الدمج يجعل طريقتنا تتفوق بشكل كبير على أحدث الطرق البصرية، والطرق التي تعتمد على IMU، والطرق المدمجة في كلا المجالين: التقدير العام للاتجاه (Global Orientation) والتقدير المحلي للوضعية (Local Pose). يمكن الوصول إلى الشيفرة المصدرية الخاصة بنا لأغراض البحث عبر الرابط: https://shaohua-pan.github.io/robustcap-page/.