DeepFuse: شبكة تُراعي وحدة القياس التفاعلي (IMU) لتقدير موضع الإنسان ثلاثي الأبعاد في الزمن الفعلي من صور متعددة الزوايا

في هذه الورقة، نقترح شبكة ثلاثية الأبعاد ذات مرحلتين تُسمى \textbf{DeepFuse}، لتقدير وضعية الإنسان في الفضاء ثلاثي الأبعاد من خلال دمج بيانات وحدات القياس التسارعية المحمولة على الجسم (IMU) والصور متعددة الزوايا بشكل عميق. تتكون المرحلة الأولى من شبكة تُصمم لتقدير الوضعية بالاعتماد فقط على الرؤية. وللحفاظ على الطبيعة الأساسية للبيانات الواردة من الصور متعددة الزوايا، تستخدم المرحلة البصرية التمثيل ثلاثي الأبعاد متعدد القنوات كشكل تمثيلي للبيانات، وتُطبّق طبقة نشاط من نوع 3D soft-argmax. أما المرحلة الثانية فهي مرحلة تحسين البيانات باستخدام IMU، والتي تُدخل طبقة تُسمى "طبقة العظم-IMU" لدمج بيانات IMU والبيانات البصرية في مرحلة مبكرة على مستوى البيانات. وبفضل هذه البنية، يمكننا تحقيق خطأ متوسط في المفاصل قدره $28.9$ مم على مجموعة بيانات TotalCapture و$13.4$ مم على مجموعة بيانات Human3.6M وفقًا للبروتوكول 1، محقِّقين تحسنًا كبيرًا مقارنةً بأفضل النتائج السابقة (SOTA). وأخيرًا، نناقش تجريبيًا فعالية الشبكة ثلاثية الأبعاد الكاملة في تقدير الوضعية ثلاثية الأبعاد، مما قد يُسهم في توجيه الأبحاث المستقبلية.